研究概要 |
本年度は準備段階として以下の3項目を実施した。 1.コーパスの取得と整備 現代日本語書き言葉均衡コーパスモニター公開データ,学術論文データ,毎日新聞CD-ROM,新聞社説データ等を入手し,UniDic+MeCabを用いて形態素解析を実施した。白書については分析用共通データとして語彙表(異なり語数約28,000語)を作成した。 2.統計指標の問題点の整理 「細く長い道」のような例では,「細く」と「道」とのコロケーションが直接には検出できない。また,「目に余るふるまい」のような慣用句を含んだ表現では,「余る」と「ふるまい」のような例外的なコロケーションが抽出されてしまう。このような,コロケーション測定の目的から外れる事例がどのくらいあり,測定の際にどれくらい影響を与えるかを具体的に検討するため,白書データで実測を行った。結果は形容詞+形容詞+名詞の連続は113例検出されたが,係り受けが適切でないもの,形容詞+否定辞の「ない」,連用形の「著しく」+形容詞等,目的に沿わない例を除外すると該当例は2例のみであることが分かった。 3.文章のジャンルと相関する特徴的表現の抽出 文章のジャンルを判別する指標を検討するため,モニター公開データの白書における複合動詞の抽出作業及び新聞社説データの慣用句の抽出作業に着手した。白書からは延べ3860例の複合動詞を抽出した。慣用句は,朝日新聞1985年〜2005年まで,毎月9日の社説(休刊日の場合は10日)合計252日分489社説の約1割のデータについて抽出の試行を行い,慣用句の認定範囲の検討を行っている。
|