研究概要 |
語彙的言い換えは,入力文中の語句を同じ意味を持つ別の語句に置換する作業である.ただし,実際には,文脈に無関係に置換可能な言い換え対はほとんど存在しないため,与えられた言い換え対が置換可能かどうかを所与の文脈に照らして評価する機構が必要になる.本研究では,語彙的言い換えの方法として,同概念語への言い換えと国語辞典の語釈文への言い換えの二つを検討し,実験によって評価機構の有効性を経験的に評価した. 初年度は,言い換え事例約1000件を分析し,言い換え後の文に対する適格性評価の項目と修正処理を分類・整理した.得られた知見は以下の通りである. (a)もっとも頻度が高かったのは活用の誤りだが,これの解決は難しくない. (b)次に多かったのは,動詞と格要素の共起が不適格なケースである.第2年度に解決を試みた. (c) (c)と同様に多かったのは,言い換え前の語が多義であり,誤った言い換え対を選択したケースである.しかし,これらの約半数は(b)と同様の方法で解決できることがわかった. (d)その他の問題は上の3種類に比べると頻度がかなり少なかった. 以上の観察に基づいて,第2年度は,主として上記(b)の問題にとりくんだ.具体的には,20年分の新聞記事コーパスから<名詞,助詞,動詞>の共起事例を大量に収集し,それを正例の訓練データとした.また,評価対象とする名詞と動詞を頻度に基づいて制限し,この制限を満たす言い換え事例約5000件を人手で評価し,負例を収集した.解くべき問題は,こうして収集した大量の正例と少数の負例を訓練事例として,言い換え後の文に含まれる<名詞,助詞,動詞>の共起の適格性を判定することである.実験結果から,大量の正例から統計的に適確性を推定するモデルと,入力と負例との類似度に基づいて不適格性を推定するモデルを組み合わせることによって,精度の高い判別器が得られることがわかった.
|