• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 実績報告書

代表性を有する現代日本語書籍コーパスの構築

計画研究

研究領域代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備
研究課題/領域番号 18061007
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

研究分担者 丸山 岳彦  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (90392539)
柏野 和佳子  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (50311147)
山口 昌也  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (30302920)
小椋 秀樹  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (00321547)
小沼 悦  大学共同利用機関法人人間文化研究機構国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
キーワード均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 / 著作権処理
研究概要

1.年度当初には『現代日本語書き言葉均衡コーパス』の主要な部分を占める書籍コーパス(24320サンプル、約6500万語)のサンプリングを完了したが、著作権処理での拒否による減少を補うため、減少したNDC層に対してサンプルの補填を行い、各層の均衡を確保した。
2.文庫化などにより、サンプルを取得した書籍の刊行年とサンプルの初出年とが異なる場合があったものについて初出年を調査し、書誌情報を充実させた。
3.形態素解析用辞書UniDicの整備拡充については、構築中のデータの解析結果から未登録語を採録し、年度当初の語彙素数18万4千・書字形28万7千に対して、語彙素数21万・書字形33万まで増補した。
4.形態論情報を考慮した公開用XMLフォーマットを策定し、従来の文字ベースのXMLとの整合性を図った。また、外注の過程で発生した誤入力の効率的な修正を行った。
5.機械学習用に精度の高い解析を行う「コアデータ」については、ブログ10万語の短単位での整備を行い、短単位のすべてのデータが完成した。また,コア全体に対して長単位による解析・人手修正及び文節境界の付与をほぼ完了した。
6.著作権処理は、2011年3月末時点で、書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数24,150に対し、著作権者へ連絡済みのものが21,744サンプル(約90%)、そのうち許諾が得られたものが15,703サンプルである。連絡が取れた場合を母数とした許諾率は約72%である。
7.サンプリング、電子化、形態論情報付与の各構築作業に関するノウハウをまとめた報告書を2冊ずつ、計6冊刊行した(平成23年2月)。
8.「モニター公開データ」の利用者に対するアンケートを実施し、利用実態を分析した。

  • 研究成果

    (28件)

すべて 2011 2010 その他

すべて 雑誌論文 (4件) (うち査読あり 2件) 学会発表 (16件) 図書 (6件) 備考 (2件)

  • [雑誌論文] 漢字の使用実態-表外訓・表外字の使用について2011

    • 著者名/発表者名
      小椋秀樹
    • 雑誌名

      国文学解釈と鑑賞

      巻: 76 ページ: 67-75

  • [雑誌論文] 現代日本語書き言葉における修辞ユニット分析の適用性の検証-「書き言葉らしさ・話し言葉らしさ」と脱文脈化言語・文脈化言語の関係-2011

    • 著者名/発表者名
      佐野大樹, 小磯花絵
    • 雑誌名

      機能言語学研究

      巻: 6 ページ: 59-81

    • 査読あり
  • [雑誌論文] Yahoo!知恵袋における質問の修辞ユニット分析-脱文脈化-文脈化の程度による分類-2011

    • 著者名/発表者名
      田中弥生
    • 雑誌名

      信学技報

      巻: NLC2010-33 ページ: 13-18

  • [雑誌論文] ブログにおける評価表現の使い分けの特徴-アプレイザル理論からみた評価基準と表現の直接性/間接性の関係-2010

    • 著者名/発表者名
      佐野大樹
    • 雑誌名

      計量国語学

      巻: 27-7 ページ: 249-269

    • 査読あり
  • [学会発表] An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese2010

    • 著者名/発表者名
      Wakako Kashino, Manabu Okumura
    • 学会等名
      24th Pacific Asia Conference on Language, Information and Computation (PACLIC24)
    • 発表場所
      東北大学
    • 年月日
      2010-11-06
  • [学会発表] 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査2010

    • 著者名/発表者名
      柏野和佳子, 奥村学
    • 学会等名
      第88回人文科学とコンピュータ研究会発表会
    • 発表場所
      国立国語研究所
    • 年月日
      2010-10-30
  • [学会発表] 形態素解析辞書「中古和文UniDic」とその活用例2010

    • 著者名/発表者名
      小木曽智信, 小椋秀樹, 近藤明日子, 須永哲也
    • 学会等名
      日本語学会2010年度秋季大会
    • 発表場所
      愛知大学豊橋キャンパス
    • 年月日
      2010-10-24
  • [学会発表] 『現代日本語書き言葉均衡コーパス』(BCCWJ)を利用した語彙研究の進展2010

    • 著者名/発表者名
      山崎誠
    • 学会等名
      北京日本学研究センター創立25周年記念シンポジウム
    • 発表場所
      北京外国語大学
    • 年月日
      2010-10-17
  • [学会発表] 話し言葉にみられる「から」「ので」の音調2010

    • 著者名/発表者名
      田頭(谷口)未希, 丸山岳彦
    • 学会等名
      第24回日本音声学会全国大会
    • 発表場所
      國學院大學渋谷キャンパス
    • 年月日
      2010-10-10
  • [学会発表] An Annotation Scheme for Syntactic Unit in Japanese Dialog2010

    • 著者名/発表者名
      Maruyama, Takehiko, Katsuya Takanashi, Nao Yoshida
    • 学会等名
      The 5th Workshop on Disfluency in Spontaneous Speech, and The 2nd International Symposium on Linguistic Patterns in Spontaneous Speech
    • 発表場所
      東京大学本郷キャンパス
    • 年月日
      2010-09-26
  • [学会発表] テキストにおける多義語の意味実現の傾向2010

    • 著者名/発表者名
      山崎誠
    • 学会等名
      計量国語学会第54回大会
    • 発表場所
      大正大学
    • 年月日
      2010-09-11
  • [学会発表] 社会科学と文学の「あとがき」における文体的特徴の相違2010

    • 著者名/発表者名
      田中弥生
    • 学会等名
      計量国語学会第54回大会
    • 発表場所
      大正大学
    • 年月日
      2010-09-11
  • [学会発表] 現代日本語コーパスにおける文字処理2010

    • 著者名/発表者名
      高田智和
    • 学会等名
      第4回人間文化研究情報資源共有化研究会
    • 発表場所
      国立国語研究所
    • 年月日
      2010-09-10
  • [学会発表] 異なる媒体における「QA」の文体的特徴-書籍とWebを比較して-2010

    • 著者名/発表者名
      田中弥生
    • 学会等名
      社会言語科学会第26回大会
    • 発表場所
      大阪大学豊中キャンパス
    • 年月日
      2010-09-04
  • [学会発表] メディア別外字表現の実態-『現代日本語書き言葉均衡コーパス』収録サンプルより2010

    • 著者名/発表者名
      西部みちる, 小林正行, 大島一, 柏野和佳子
    • 学会等名
      ことば工学研究会(第35回)
    • 発表場所
      神奈川大学横浜キャンパス
    • 年月日
      2010-08-28
  • [学会発表] 「直接的な語り」という表現スタイルをもつ書籍テキストの人手抽出の試み2010

    • 著者名/発表者名
      柏野和佳子
    • 学会等名
      ことば工学研究会(第35回)
    • 発表場所
      神奈川大学横浜キャンパス
    • 年月日
      2010-08-28
  • [学会発表] コーパス収録上問題となるネット表現-Yahoo!知恵袋データを対象に-2010

    • 著者名/発表者名
      大島一, 西部みちる, 小林正行, 柏野和佳子
    • 学会等名
      ことば工学研究会(第35回)
    • 発表場所
      神奈川大学横浜キャンパス
    • 年月日
      2010-08-27
  • [学会発表] A Web-based Support System for Writing Various Compositions in Japanese Language2010

    • 著者名/発表者名
      Masaya YAMAGUCHI, Hisako TANAHASH
    • 学会等名
      The 15th Symposium on Japanese Language Education in Europe
    • 発表場所
      University of Bucharest
    • 年月日
      2010-08-26
  • [学会発表] 「病院の言葉」の類型の推測とモデル化-『現代日本語書き言葉均衡コーパス』における語の使用度数を用いた一考察-2010

    • 著者名/発表者名
      佐野大樹, 田中牧郎, 丸山岳彦
    • 学会等名
      日本言語学会 第140回大会
    • 発表場所
      筑波大学
    • 年月日
      2010-06-20
  • [学会発表] Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese2010

    • 著者名/発表者名
      Maekawa, Kikuo, Makoto Yamazaki, Takehiko Maruyama, Masaya Yamaguchi, Hideki Ogura, Wakako Kashino, Toshinobu Ogiso, Hanae Koiso, Yasuharu Den
    • 学会等名
      7th International Conference on Language Resources and Evaluation (LREC2010)
    • 発表場所
      Mediterranean conference centre, Valleta, Malta
    • 年月日
      2010-05-20
  • [図書] 『現代日本語書き言葉均衡コーパス』におけるサンプリングの原理と応用2011

    • 著者名/発表者名
      丸山岳彦, 他
    • 総ページ数
      92
    • 出版者
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [図書] 『現代日本語書き言葉均衡コーパス』に含まれるサンプルおよび書誌情報の設計と実装2011

    • 著者名/発表者名
      丸山岳彦, 他
    • 総ページ数
      154
    • 出版者
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [図書] 『現代日本語書き言葉均衡コーパス』における電子化テキストの構築2011

    • 著者名/発表者名
      西部みちる, 他
    • 総ページ数
      396
    • 出版者
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [図書] 『現代日本語書き言葉均衡コーパス』における電子化フォーマット ver.2.22011

    • 著者名/発表者名
      山口昌也, 他
    • 総ページ数
      166
    • 出版者
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [図書] 『現代日本語書き言葉均衡コーパス』形態論規程集 第4版(上)2011

    • 著者名/発表者名
      小椋秀樹, 他
    • 総ページ数
      132
    • 出版者
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [図書] 『現代日本語書き言葉均衡コーパス』形態論規程集 第4版(下)2011

    • 著者名/発表者名
      小椋秀樹, 他
    • 総ページ数
      228
    • 出版者
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [備考]

    • URL

      http://www.tokuteicorpus.jp/

  • [備考]

    • URL

      http://www.ninjal.ac.jp/kotonoha/

URL: 

公開日: 2012-07-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi