2004 Fiscal Year Annual Research Report
検索意図と文書特性に基づいて特定の観点から内容をまとめる柔軟な複数文書自動要約
Project/Area Number |
16650053
|
Research Institution | National Institute of Informatics |
Principal Investigator |
神門 典子 国立情報学研究所, ソフトウェア研究系, 教授 (80270445)
|
Keywords | 複数文書要約 / 観点 / 文書ジャンル / 情報のタイプ / 意見の要約 / 意見 / 要約の評価 |
Research Abstract |
自動要約研究では,従来、主として文書中の単語の出現頻度を手がかりとして重要な話題を含む箇所を抽出する手法が用いられてきた.しかしながら、たとえ同じ文書集合が与えられたとしても、その中で重視する観点は、個々の利用者の検索の目的によって異なる。 観点はさまざまなものが考えられるが、今年度は、話題と利用者が重視する情報のタイプ(事実を知りたいのか、意見を知りたいのか、定義などの知識を得たいのかなど)に着目して要約を作成する複数文書要約器v-SWIMを提案した。また、ベースラインシステムとして、情報のタイプを識別しない複数文書要約器SWIMを構築した。 SWIMでは、複数のクラスタリング手法の比較実験をし、段落単位のWard法によるクラスタリングを採用した。v-SWIMは、検索結果などの文書集合が与えられると、その内容を自動分析し、その文書集合に含まれる話題のリストと情報タイプのリストを利用者に提示する。利用者が関心のある話題と情報タイプを選択すると、v-SWIMは選択された話題と情報タイプを重視して要約を作成する。情報タイプを識別するために、語の出現頻度に加えて、文書ジャンルと文役割を用いた。文書ジャンルは多様な文書の種類に柔軟に対応できるように、複数の基本的な属性の組み合わせとしてジャンル特性を定義した。 SWIMは、多数の要約研究システムが参加する評価NTCIR-4 tsc-3において上位の成績を収めた。また、重視する情報タイプ別に人が作成した参照要約を持つ要約実験用データセットViewSumm30を作成し、それを用いて評価実験をおこなったところ、closedな実験ではあるが、v-SWIMは、文書ジャンルや文役割を用いないベースラインシステムSWIMよりも有意に要約の有用性が向上した。Openな評価と複数の観点の対比は来年度の課題である。
|