• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2008 年度 実績報告書

日本語のコロケーションを記述するための統計指標のコーパスによる検証

研究課題

研究課題/領域番号 20520429
研究機関独立行政法人国立国語研究所

研究代表者

山崎 誠  独立行政法人国立国語研究所, 研究開発部門, グループ長 (30182489)

研究分担者 村田 年  慶應義塾大学, 日本語・日本文化教育センター, 教授 (50225372)
橋本 和佳  同志社大学, 文学部, 講師 (40411053)
馬場 康維  統計数理研究所, 名誉教授 (90000215)
キーワードコロケーション / コーパス / 推移確率 / 統計指標 / 共起
研究概要

本年度は準備段階として以下の3項目を実施した。
1.コーパスの取得と整備
現代日本語書き言葉均衡コーパスモニター公開データ,学術論文データ,毎日新聞CD-ROM,新聞社説データ等を入手し,UniDic+MeCabを用いて形態素解析を実施した。白書については分析用共通データとして語彙表(異なり語数約28,000語)を作成した。
2.統計指標の問題点の整理
「細く長い道」のような例では,「細く」と「道」とのコロケーションが直接には検出できない。また,「目に余るふるまい」のような慣用句を含んだ表現では,「余る」と「ふるまい」のような例外的なコロケーションが抽出されてしまう。このような,コロケーション測定の目的から外れる事例がどのくらいあり,測定の際にどれくらい影響を与えるかを具体的に検討するため,白書データで実測を行った。結果は形容詞+形容詞+名詞の連続は113例検出されたが,係り受けが適切でないもの,形容詞+否定辞の「ない」,連用形の「著しく」+形容詞等,目的に沿わない例を除外すると該当例は2例のみであることが分かった。
3.文章のジャンルと相関する特徴的表現の抽出
文章のジャンルを判別する指標を検討するため,モニター公開データの白書における複合動詞の抽出作業及び新聞社説データの慣用句の抽出作業に着手した。白書からは延べ3860例の複合動詞を抽出した。慣用句は,朝日新聞1985年〜2005年まで,毎月9日の社説(休刊日の場合は10日)合計252日分489社説の約1割のデータについて抽出の試行を行い,慣用句の認定範囲の検討を行っている。

  • 研究成果

    (1件)

すべて 2009

すべて 雑誌論文 (1件) (うち査読あり 1件)

  • [雑誌論文] 文章と文型8-論文要旨における文型の使用頻度調査-2009

    • 著者名/発表者名
      村田年
    • 雑誌名

      日本語と日本語教育(慶應義塾大学日本語・日本文化教育センター) 37

      ページ: 61-92

    • 査読あり

URL: 

公開日: 2010-06-11   更新日: 2014-05-20  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi