2008 年度実績報告書

日本語のコロケーションを記述するための統計指標のコーパスによる検証

研究課題

研究課題/領域番号	20520429
研究機関	独立行政法人国立国語研究所
研究代表者	山崎誠独立行政法人国立国語研究所, 研究開発部門, グループ長 (30182489)
研究分担者	村田年慶應義塾大学, 日本語・日本文化教育センター, 教授 (50225372) 橋本和佳同志社大学, 文学部, 講師 (40411053) 馬場康維統計数理研究所, 名誉教授 (90000215)
キーワード	コロケーション / コーパス / 推移確率 / 統計指標 / 共起
研究概要	本年度は準備段階として以下の3項目を実施した。 1.コーパスの取得と整備現代日本語書き言葉均衡コーパスモニター公開データ,学術論文データ,毎日新聞CD-ROM,新聞社説データ等を入手し,UniDic+MeCabを用いて形態素解析を実施した。白書については分析用共通データとして語彙表(異なり語数約28,000語)を作成した。 2.統計指標の問題点の整理「細く長い道」のような例では,「細く」と「道」とのコロケーションが直接には検出できない。また,「目に余るふるまい」のような慣用句を含んだ表現では,「余る」と「ふるまい」のような例外的なコロケーションが抽出されてしまう。このような,コロケーション測定の目的から外れる事例がどのくらいあり,測定の際にどれくらい影響を与えるかを具体的に検討するため,白書データで実測を行った。結果は形容詞+形容詞+名詞の連続は113例検出されたが,係り受けが適切でないもの,形容詞+否定辞の「ない」,連用形の「著しく」+形容詞等,目的に沿わない例を除外すると該当例は2例のみであることが分かった。 3.文章のジャンルと相関する特徴的表現の抽出文章のジャンルを判別する指標を検討するため,モニター公開データの白書における複合動詞の抽出作業及び新聞社説データの慣用句の抽出作業に着手した。白書からは延べ3860例の複合動詞を抽出した。慣用句は,朝日新聞1985年〜2005年まで,毎月9日の社説(休刊日の場合は10日)合計252日分489社説の約1割のデータについて抽出の試行を行い,慣用句の認定範囲の検討を行っている。

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件)

[雑誌論文] 文章と文型8-論文要旨における文型の使用頻度調査-2009
- 著者名/発表者名
  村田年
- 雑誌名
  
  日本語と日本語教育(慶應義塾大学日本語・日本文化教育センター) 37
  
  ページ: 61-92
- 査読あり