研究課題
自動要約研究では,従来、主として文書中の単語の出現頻度を手がかりとして重要な話題を含む箇所を抽出する手法が用いられてきた.しかしながら、たとえ同じ文書集合が与えられたとしても、その中で重視する観点は、個々の利用者の検索の目的によって異なる。観点はさまざまなものが考えられるが、今年度は、話題と利用者が重視する情報のタイプ(事実を知りたいのか、意見を知りたいのか、定義などの知識を得たいのかなど)に着目して要約を作成する複数文書要約器v-SWIMを提案した。また、ベースラインシステムとして、情報のタイプを識別しない複数文書要約器SWIMを構築した。SWIMでは、複数のクラスタリング手法の比較実験をし、段落単位のWard法によるクラスタリングを採用した。v-SWIMは、検索結果などの文書集合が与えられると、その内容を自動分析し、その文書集合に含まれる話題のリストと情報タイプのリストを利用者に提示する。利用者が関心のある話題と情報タイプを選択すると、v-SWIMは選択された話題と情報タイプを重視して要約を作成する。情報タイプを識別するために、語の出現頻度に加えて、文書ジャンルと文役割を用いた。文書ジャンルは多様な文書の種類に柔軟に対応できるように、複数の基本的な属性の組み合わせとしてジャンル特性を定義した。SWIMは、多数の要約研究システムが参加する評価NTCIR-4 tsc-3において上位の成績を収めた。また、重視する情報タイプ別に人が作成した参照要約を持つ要約実験用データセットViewSumm30を作成し、それを用いて評価実験をおこなったところ、closedな実験ではあるが、v-SWIMは、文書ジャンルや文役割を用いないベースラインシステムSWIMよりも有意に要約の有用性が向上した。Openな評価と複数の観点の対比は来年度の課題である。
すべて 2005 2004
すべて 雑誌論文 (4件) 図書 (1件)
情報処理学会論文誌:データベース 46・TOD26(採択済, 掲載予定)
In Proceedings of AAAI Spring Symposium on Exploring Attitude and Affect in Text : Theories and Applications, Stanford, CA., Technical Report SS-04-07, ISBN 1-57735-219-x
ページ: 142-145
情報処理学会研究報告 NL-161-6
ページ: 39-46
In Proceedings of the Fourth NTCIR Workshop on Evaluation of Information Access Technologies : Information Retrieval, Question Answering, and Summarization, Tokyo, Japan 4
ページ: 459-466