既存の言語資源からの大規模語彙的言い換え知識の自動抽出

研究課題

研究課題/領域番号	13780293
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	奈良先端科学技術大学院大学 (2002) 九州工業大学 (2001)
研究代表者	乾健太郎奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (60272689)
研究期間 (年度)	2001 – 2002
研究課題ステータス	完了 (2002年度)
配分額 *注記	2,400千円 (直接経費: 2,400千円) 2002年度: 1,100千円 (直接経費: 1,100千円) 2001年度: 1,300千円 (直接経費: 1,300千円)
キーワード	語彙的言い換え / 同概念語 / 語釈文 / 動詞と名詞の共起 / 統計的共起尺度 / 言い換え後の修正処理 / 統計的自然言語処理 / 自然言語処理 / 自然言語生成 / 言い換え / 言語知識獲得 / 慣用表現 / 言語資源
研究概要	語彙的言い換えは,入力文中の語句を同じ意味を持つ別の語句に置換する作業である.ただし,実際には,文脈に無関係に置換可能な言い換え対はほとんど存在しないため,与えられた言い換え対が置換可能かどうかを所与の文脈に照らして評価する機構が必要になる.本研究では,語彙的言い換えの方法として,同概念語への言い換えと国語辞典の語釈文への言い換えの二つを検討し,実験によって評価機構の有効性を経験的に評価した. 初年度は,言い換え事例約1000件を分析し,言い換え後の文に対する適格性評価の項目と修正処理を分類・整理した.得られた知見は以下の通りである. (a)もっとも頻度が高かったのは活用の誤りだが,これの解決は難しくない. (b)次に多かったのは,動詞と格要素の共起が不適格なケースである.第2年度に解決を試みた. (c) (c)と同様に多かったのは,言い換え前の語が多義であり,誤った言い換え対を選択したケースである.しかし,これらの約半数は(b)と同様の方法で解決できることがわかった. (d)その他の問題は上の3種類に比べると頻度がかなり少なかった. 以上の観察に基づいて,第2年度は,主として上記(b)の問題にとりくんだ.具体的には,20年分の新聞記事コーパスから<名詞,助詞,動詞>の共起事例を大量に収集し,それを正例の訓練データとした.また,評価対象とする名詞と動詞を頻度に基づいて制限し,この制限を満たす言い換え事例約5000件を人手で評価し,負例を収集した.解くべき問題は,こうして収集した大量の正例と少数の負例を訓練事例として,言い換え後の文に含まれる<名詞,助詞,動詞>の共起の適格性を判定することである.実験結果から,大量の正例から統計的に適確性を推定するモデルと,入力と負例との類似度に基づいて不適格性を推定するモデルを組み合わせることによって,精度の高い判別器が得られることがわかった.