研究概要 |
平成20年度は,我々の提案するインタラクティブ情報収集の枠組みの設計と,そこでのユーザフィードバックを最小にするインタラクションを設計した.インタラクティブ情報収集の枠組みとして,現時点で最も有効と考えられる設定を用いた.文書表現として,TF/IDFによるベクトル空間モデルを用いて,個々の文書を各語の出現頻度をベースにした文書ベクトルと呼ばれる多次元ベクトルで表現する.そして,ユーザが最初に入力したクエリのベクトルと各文書ベクトルとの類似度関数として,余弦類似度を用いた. 次に最小ユーザフィードバックを実現する手続きを開発した.判定文書数が最小になるように,文書判定手続きを定義する.我々の提案する枠組みでは,ユーザが判定した文書を,適合文書を正例データ,非適合文書を負例データとする分類学習を行うため,手続き的に判定文書数を最小にすることは,訓練データ数を最小にすることを意味する.我々の提案する最小ユーザフィードバック手続きとは,「適合文書と非適合文書がそれぞれ1つになるまで,ヒットリスト上位から順番に文書を判定する」ことである. この手続きを基に,最小の制約で最大の効果が得られる,距離学習ベースの制約クラスタリングアルゴリズム,独立成分分析ベースの制約クラスタリングアルゴリズム,そして,制約獲得向けのユーザインタフェースの開発を行った.
|