2008 Fiscal Year Annual Research Report
日本語のコロケーションを記述するための統計指標のコーパスによる検証
Project/Area Number |
20520429
|
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
山崎 誠 The National Institute for Japanese Language, 研究開発部門, グループ長 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
村田 年 慶應義塾大学, 日本語・日本文化教育センター, 教授 (50225372)
橋本 和佳 同志社大学, 文学部, 講師 (40411053)
馬場 康維 統計数理研究所, 名誉教授 (90000215)
|
Keywords | コロケーション / コーパス / 推移確率 / 統計指標 / 共起 |
Research Abstract |
本年度は準備段階として以下の3項目を実施した。 1.コーパスの取得と整備 現代日本語書き言葉均衡コーパスモニター公開データ,学術論文データ,毎日新聞CD-ROM,新聞社説データ等を入手し,UniDic+MeCabを用いて形態素解析を実施した。白書については分析用共通データとして語彙表(異なり語数約28,000語)を作成した。 2.統計指標の問題点の整理 「細く長い道」のような例では,「細く」と「道」とのコロケーションが直接には検出できない。また,「目に余るふるまい」のような慣用句を含んだ表現では,「余る」と「ふるまい」のような例外的なコロケーションが抽出されてしまう。このような,コロケーション測定の目的から外れる事例がどのくらいあり,測定の際にどれくらい影響を与えるかを具体的に検討するため,白書データで実測を行った。結果は形容詞+形容詞+名詞の連続は113例検出されたが,係り受けが適切でないもの,形容詞+否定辞の「ない」,連用形の「著しく」+形容詞等,目的に沿わない例を除外すると該当例は2例のみであることが分かった。 3.文章のジャンルと相関する特徴的表現の抽出 文章のジャンルを判別する指標を検討するため,モニター公開データの白書における複合動詞の抽出作業及び新聞社説データの慣用句の抽出作業に着手した。白書からは延べ3860例の複合動詞を抽出した。慣用句は,朝日新聞1985年〜2005年まで,毎月9日の社説(休刊日の場合は10日)合計252日分489社説の約1割のデータについて抽出の試行を行い,慣用句の認定範囲の検討を行っている。
|
Research Products
(1 results)