研究概要 |
本研究課題は,文簡約,すなわち原文が持つ情報をできるだけ保持しながら,それをより短い文に自動的に書き換える処理に重点を置いている.本年度は次の研究を行なった. 1.本研究では,情報の保持度を定義するため文節重要度を用い,また,構文的自然性の程度を定義するため文節間の係り受け整合度を用いている.文節重要度は,文節残存率,すなわち,原文に存在する文節が簡約文に採用される相対頻度に基づいて求め,また,係り受け整合度は,原文においてある係り受け距離を持つ文節対が簡約文において係り受け距離1で現れる割合に基づいて求めて来た.今年度は,このようなヒューリスティクな方法を確率論的な枠組みで再定式化することを試みた.原文が与えられたとき,ある係り受け構造を持った簡約文が得られる確率を計算すると,その式の中に文節重要度や係り受け整合度に相当する項が現れる.それらの項を原文と簡約文が対になったデータベースを用いて推定し,それを用いて簡約文を生成した.主観評価実験を行なった結果,この方法による簡約文は,情報の保持度,構文的自然性,総合評価のいずれにおいても,ヒューリスティクスを用いた場合とほぼ同等の品質を持つことが明らかになった. 2.これまで,文節重要度は各文節の残存率に基づいて求めていた.しかし,この方法では,例えば,原文中の「開催した」が簡約文中で「開いた」となっていた場合,それらの文節は一致したとみなされず,「開催した」は残存したことにならない.この問題を解決するため,原文と簡約文の間の文節対応付けをした上で残存率の計算を行なった.また,文節は,それを受ける文節によって重要度が変化する可能性がある.そこで,係り先の文節の素性も考慮に入れて残存率を計算した.生成された簡約文を観察したところ,ある程度の改善が見られたが,厳密な評価は今後の課題である.
|