2008 Fiscal Year Annual Research Report
利用者との対話に基づく複数文書要約手法に関する研究
Project/Area Number |
19500118
|
Research Institution | Yokohama National University |
Principal Investigator |
森 辰則 Yokohama National University, 大学院・環境情報研究科(研究院), 教授 (70212264)
|
Keywords | 自動要約 / Scatter / Gather / 関連性フィードバック / ユーザインターフェース / 画像、文章、音声等認識 |
Research Abstract |
本研究では、大量の文書に対する情報アクセス技術という観点から、文書群に対して生成された要約文章をディスプレイ上に電子的に提示したものを対話のインタフェースとすることを提案し、システムが行う文書群の内容提示のみならず、利用者が行う情報要求の指示も、電子的に提示された要約文章の上で統合的に行う仕組みを検討している。本年度は、特に以下の検討を行った。 1.提案手法全体に関する検討 前年度に引続き、情報検索インタフェースの手法で、検索文書のクラスタリングとクラスタの選択を繰り返すScatter/Gather法について、これを要約文章提示の観点から整理し直すことにより、利用者が行うべき作業、すなわち、概観する文書を読むことと情報を絞込むことの両者について、要約文章に対するマーク付け操作に集約できるという着想に基づき、対話的要約インタフェースを構築する手法について検討した。特に、前年度行なった文書要約と文書クラスタリングの関係についての考察を基盤とし、要約文書を生成する際に利用する、語の重要度計算に関する検討を行なった。その結果、クラスタ頻度の逆数や、クラスタ分割による語の弁別能力を情報利得比により求める手法が有効であることが分かった。 2.自動要約に関連する情報抽出手法の検討 前年度に引続き、動向情報を含む文章の要約を目的として、動向情報に関する情報抽出に関する検討を行った。動向情報は統計量名と対応する値の組により表現されるが、値が連続した名詞句で表現されるのに対して、一つの統計量名を構成する表現は文章中に分かれて出現する。前年度は、統計量名の部品を構成する要素を定義し、これらを個別に抽出する手法を提案しその有効性を示したので、この検討を受け、本年度は個別に抽出された要素を自動的に適切に組み合わせる手法を検討し、その有効性を検証した。
|
Research Products
(2 results)