研究概要 |
本研究の目的は,情報検索の結果として得られた文書群から利用者が真に必要とする情報を効率良く選択する手助けとなる情報提示技法を確立することである.我々は,その根幹をなすものが「複数文書間の関係を考慮した重要語抽出」であると考え,複数文書の類似構造を文書中の語の重要度に写像するという新手法の確立を目標としている.本研究では,これを基幹技術として,検索文書の要約ならびに情報ナビゲーション向け情報提示に関する技術を開発する. 上記目的の下,本年度は以下に示す研究を行をい,知見を得た. 1.クラスタ構造に適応的な語の重要度決定手法ならびに自動要約への応用 表層的類似性により文書を複数のクラスタに分類した後,クラスタ中の各語について確率分布に関する情報利得比を求めると,これがそのクラスタの下位分岐構造と注目している語の間の整合性を表す尺度として利用できることを確認した.この重みを文書内頻度や文書頻度の逆数と組み合わせることにより,検索文書の要約に適した語の重みをつくることができることを示した. 2.静的なクラスタリングに基づくプロトタイプシステムの作成 上述の機構を持つプロトタイプシステムを検索エンジンと融合させる形で作成した.これは,ベクトル空間法に基づく基本的な検索エンジンの索引情報をそのまま流用し,クラスタリングや情報利得比の計算などを行なえるようにしたものである.クラスタリング機構にはBIRCHアルゴリズムを導入し大量の検索結果に対して対応可能である. 3.動的なクラスタリングに基づくインタフェースならびクラスタの説明記述生成に関する予備的検討 これは来年度の研究計画(申請中)における検討課題であるが,一部実装を進めており,評価を開始している.
|