2009 年度実績報告書

日本語のコロケーションを記述するための統計指標のコーパスによる検証

研究課題

研究課題/領域番号	20520429
研究機関	大学共同利用機関法人人間文化研究機構国立国語研究所
研究代表者	山崎誠大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)
研究分担者	村田年慶應義塾大学, 日本語・日本文化教育センター, 教授 (50225372) 橋本和佳同志社大学, 文学部, 講師 (40411053) 馬場康維統計数理研究所, 名誉教授 (90000215)
キーワード	コロケーション / コーパス / 推移確率 / 統計指標 / 共起
研究概要	本年度は準備段階として以下の2項目を実施した。 1.係り受けの位置の調査コロケーションがどのくらいの範囲で起きているか,動詞と名詞の関係を取り上げて調査した。利用したデータは,『現代日本語書き言葉均衡コーパス』の「コアデータ」(書籍,白書,新聞,Yahoo!知恵袋)約80万語を対象に,「を+動詞」に係る名詞(約14000例),「名詞+を」の係る動詞(約20000例),「に+動詞」に係る名詞(約15000例)について,係りの位置が上記中心語の前後どのくらいの範囲に出現しているかを形態素単位で調査した。その結果,「を+動詞」は,挿入句や括弧などの記号を除くと殆どの場合,直前に係り元の名詞が出現しているが,「名詞+を」では,直後に副詞や動詞の取る別の格(「に格」など)に関係する名詞等が現れる場合が約10%近くあること分かった。このことは名詞を中心としたコロケーションを測定する場合に一定の誤差として影響が出ることを意味している。また,「に+動詞」では,「について」「において」「における」などの複合辞が多数含まれること及び「すぐに」「実際に」などの副詞を構成する「に」が分離されていることなど,形態素解析に起因する問題を除けば,係り元の名詞はほぼ直前に出現していることが確認された。 2.推移確率測定のためのデータ整備文の中での単語と単語との連接関係を調べるために,品詞列の出現状況を文単位で調査するためのデータを整えた。上記「コアデータ」を文ごとに分け,品詞連続の出現状況をテキストの種類ごとに特徴があるかどうかを調べるためのデータを作成した。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] テキストにおける語の平均使用度数と文体差2009
- 著者名/発表者名
  山崎誠
- 学会等名
  大規模データ・リンヶージ, データマイニングと統計手法
- 発表場所
  国立情報学研究所
- 年月日
  2009-10-09