研究概要 |
1.本研究では,学習データとして原文と人手による簡約文が対になった新聞記事データベースを使用している.このデータベースを用いると,人が行なう簡約の傾向に関する情報を得ることができ,自動簡約に役立っ.このような情報抽出を有効に行なうためには,原文と簡約文の間の文節対応付けを行なう必要がある.そのため,概念距離と係り受けを利用した対応付けアルゴリズムを開発した. 2.当該研究期間以前は,原文の集合から係り受け距離の分布を求め,それに基づいて係り受け整合度を定めていた.しかし,この方法では原文とそれに対応する簡約文の関係が反映されていない。この問題を解決するため,まず,原文と簡約文の間の文節対応付けを行なった.そして,原文においてある係り受け経路長を持つ文節対が簡約文において係り受け距離1で現れる相対頻度を求め,それに基づいて係り受け整合度を定めた.これを用いて簡約文を生成し,主観評価実験を行なったところ,重要情報の保持,構文的自然性,総合評価のいずれにおいても改善が認められた. 3.本研究で採用している文節抽出型文簡約においては,原文中で係り受け関係になかった文節対が簡約文では係り受け関係を持っようになり,文の自然性が損なわれることがある.その場合でも係り文節の末尾を修正することにより,自然性を向上させることができる.ここでは,ルールベースと統計ベースの2つの方法により文節末を修正する方法を提案し,主観評価実験によりその有効性を確かめた. 4.文節重要度と係り受け整合度はヒューリスティックな方法で定めていたが,それを確率論的な枠組みで定式化し直して簡約文生成を行なった.主観評価実験の結果,この方法とヒューリスティックな方法はほぼ同等な性能を持つことが明らかになった.
|