Research Abstract |
インターネット上の大量の情報の中から,有用な情報のみを選別したり,ゴミと考えられるような大量の情報をフィルタリングしたりするためには,それらの情報を何らかの基準に基づき評価し,その評価に基づき,情報の格付けを行う必要がある.本研究課題では,情報の中で特にテキスト情報に着目し,システムにより自動評価を行う手法の開発を行う.我々がテキスト自動要約システムの出力するテキストを自動評価する枠組みとして当初開発したものを援用,拡張することで,広く一般のテキストを自動評価する枠組みを開発することを目的とする.本研究課題では, 1)文章としての質の評価, 2)内容の情報量の評価,それぞれを行う手法,システムの開発を並列して行い,最終年度(平成21年度)にそれらを統合して,実証実験を行う.今年度, 1)文章としての質の評価では,文章中の文間のつながりの良し悪しを自動評価し,テキスト自体の文章としての良し悪しを計る統計的な手法を開発した。結束性の情報として利用可能なもののうち,接続詞,語彙的結束性の情報を,従来用いられているentity grid手法に追加,拡張することで,従来よりも高精度にテキストの一貫性を判定できることを明らかにした. 2)内容の情報量の評価では,これまでの研究成果により,テキスト自動要約システムの出力したテキストの内容を自動的に評価する枠組みの構築に成功している.この枠組みでは,模範的なテキストあるいは,あらかじめ人間が評価したテキストと,内容的にどの程度類似しているかを元に,テキストの評価結果を計算する。人間が人手で評価した結果と非常に相関の高い評価を実現できている.今年度は内容的な類似度尺度に,語彙的な言い換えの情報を導入することで,より高精度に類似性判定を行える枠組みの検討を行った.
|