研究概要 |
本研究課題では,文簡約,すなわち原文が持つ情報をできるだけ保ちながら,より短い文に書き換えることが重要な位置を占めている.そこで,まず,新聞記事とその人手による簡約文を組にしたデータベースを用いて,原文の構造と簡約文の構造の関係や,簡約文の中に残る文節の種類を調べることにした.そのためには,原文中の文節と簡約文中の文節の対応付けを行なう必要がある.そのような対応付けを自動的に行なうため,本研究では対応付けの良さを測る評価関数を定義し,それを最大化する対応付けを探索によって見出すことを考えた.評価関数は,2つの関数の加重和である.それらの一つは原文中の文節と簡約文中の文節の概念距離を用いて定義される.他の一つは,原文中の係り受け構造が要約文中で保たれている度合いを測るもので,簡約文中で1ステップの係り受け関係にある2文節に対して,それぞれのに対応する原文の文節が何ステップの係り受け関係にあるかを基にして定義される. 実験には,「毎日新聞全文記事および54文字データベース(2002年度版)」中の200文を用いた,対応付けの正解データは人手で作成した.また,概念辞書としては,EDR概念体系辞書を用いた.探索は幅優先で行い,計算量や記憶容量を削減するために局所的な評価値の増分に基づいて枝刈を行なっている.実験の結果,再現率90.4%,適合率82.4%という結果が得られた.これは,従来の手法による結果と比較して良好であり,文節間の概念的な距離と係り受け構造の保持度を利用した効果があったと考えられる.
|