• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2007 年度 実績報告書

代表性を有する現代日本語書籍コーパスの構築

計画研究

研究領域代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備
研究課題/領域番号 18061007
研究機関独立行政法人国立国語研究所

研究代表者

山崎 誠  独立行政法人国立国語研究所, 研究開発部門, グループ長 (30182489)

研究分担者 丸山 岳彦  独立行政法人国立国語研究所, 研究開発部門, 研究員 (90392539)
山口 昌也  独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (30302920)
柏野 和佳子  独立行政法人国立国語研究所, 研究開発部門, 研究員 (50311147)
小椋 秀樹  独立行政法人国立国語研究所, 研究開発部門, 研究員 (00321547)
森本 祥子  独立行政法人国立国語研究所, 情報資料部門, 研究員 (80342939)
キーワード均衡コーパス / 書き言葉 / 代表制 / 書籍 / サンプリング / XML / 形態素解析
研究概要

平成19年度に行った主要な調査研究の内容は以下のとおりである。
1. 生産実態(出版)サブコーパスでは,約4,200サンプルのサンプリング及び約4000サンプルの電子化を終了した。また,昨年度末入力分と合わせて,約4,500サンプルに対してタグ付けを実施した。
2. 流通実態(図書館)サブコーパスでは,東京都の52自治体の公共図書館の蔵書目録である「ISBN総合目録」をもとに13自治体以上で共通して所蔵している書籍約336,000冊を選定し,母集団を決定した。今年度は約6,600サンプルのサンプリング及び約6,100サンプルの電子化を終了。約2,400サンプルのタグ付けを実施した。
3. 解析用辞書UniDicの整備拡充を行った。構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数106,347・書字形136,276に対して,語彙素数111,127・書字形158,011に増補した。また,人名についての見出し語の整理,語種情報の付与作業を行った。
4. コアデータの設計と構築。機械学習用に精度の高い解析を行うコアデータについては,書き言葉コーパスの主なジャンルから均等にデータを得ることとした。今年度は,白書20万語の整備を終了し,新たに新聞10万語,書籍20万語のデータを追加した。
5. 著作権処理。2008年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数14,650に対し,著作権者へ連絡済みのものが7,230サンプル,そのうち許諾が得られたものが3,778サンプルである。連絡が取れた場合を母数とした許諾率は約52%である。
6. 報告書の刊行。サンプリング,電子化,形態論情報に関する報告書を4冊刊行した。

  • 研究成果

    (19件)

すべて 2008 2007 その他

すべて 雑誌論文 (5件) (うち査読あり 1件) 学会発表 (11件) 備考 (3件)

  • [雑誌論文] 学術的表現への言い換え-教育現場での選択体系機能言語理論-2007

    • 著者名/発表者名
      佐野大樹
    • 雑誌名

      日本語学 26(13)

      ページ: 60-71

  • [雑誌論文] 現代雑誌70誌における漢字の使用実態と常用漢字表-国語施策へのコーパス活用に向けた基礎調査-2007

    • 著者名/発表者名
      小椋秀樹
    • 雑誌名

      日本語科学 22

      ページ: 125-146

    • 査読あり
  • [雑誌論文] コーパス言語学の射程2007

    • 著者名/発表者名
      丸山岳彦
    • 雑誌名

      日本語科学 22

      ページ: 5-12

  • [雑誌論文] 国立国語研究所の言語コーパス整備計画「KOTONOHA」の紹介2007

    • 著者名/発表者名
      山崎誠
    • 雑誌名

      漢字文献情報処理研究 8

      ページ: 180-183

  • [雑誌論文] 国立国語研究所の語彙調査の歴史と課題2007

    • 著者名/発表者名
      山崎誠
    • 雑誌名

      Sokutei Report 6

      ページ: 168-186

  • [学会発表] ブログの言語表現にみる対人配慮意識-媒体差および世代差に注目して-2008

    • 著者名/発表者名
      田中弥生
    • 学会等名
      第21回社会言語科学会研究大会
    • 発表場所
      東京女子大学
    • 年月日
      2008-03-22
  • [学会発表] 現代雑誌の漢語表記2008

    • 著者名/発表者名
      高田智和
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] クチコミサイトにおける世代別・媒体別言語表現の分析2008

    • 著者名/発表者名
      田中弥生
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] 「現代日本語書き言葉均衡コーパス」の長単位認定基準について2008

    • 著者名/発表者名
      冨士池優美
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] 形態素解析用辞書UniDicへの語種情報の実装と政府刊行白書の語種比率の分析2008

    • 著者名/発表者名
      小椋秀樹
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] 書籍の生産実態を反映するサンプリング-NDCごとに取得したサンプルの多様性の分析-2008

    • 著者名/発表者名
      柏野和佳子
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] システミック文法に基づく書きことばの複雑さ測定-日本語大規模コーパスを用いた語彙密度計測-2008

    • 著者名/発表者名
      佐野大樹
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] 話し言葉に現れる2種類のカラ節の判別2008

    • 著者名/発表者名
      丸山岳彦
    • 学会等名
      言語処理学会第14回年次大会
    • 発表場所
      東京大学
    • 年月日
      2008-03-18
  • [学会発表] 現代日本語書き言葉均衡コーパスの設計と検索デモンストレーション2007

    • 著者名/発表者名
      山崎誠
    • 学会等名
      日本語学会2007年度秋季大会
    • 発表場所
      沖縄国際大学
    • 年月日
      2007-11-18
  • [学会発表] Japanese Nursery Tales : A study of genre, semantic attributes, evaluation and lexicogrammar2007

    • 著者名/発表者名
      Motoki Sano
    • 学会等名
      Annual Congress of the Australian Systemic Functional Linguistics Association
    • 発表場所
      University of Wollongong, Australia
    • 年月日
      2007-06-30
  • [学会発表] <驚き・感慨>を表すモノダ文の解釈と構造2007

    • 著者名/発表者名
      北村雅則
    • 学会等名
      日本語学会2007年度春季大会
    • 発表場所
      関西大学
    • 年月日
      2007-05-27
  • [備考] 国立国語研究所KOTONOHA計画

    • URL

      http://www.kokken.go.jp/kotonoha/

  • [備考] 特定領域研究「日本語コーパス」

    • URL

      http://www.tokuteicorpus.jp/

  • [備考] 現代日本語書き言葉均衡コーパス検索デモンストレーション

    • URL

      http://www.kotonoha.gr.jp/demo/

URL: 

公開日: 2010-06-11   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi