2008 年度実績報告書

最小ユーザフィードバックによるインタラクティブ情報収集

研究課題

研究課題/領域番号	20300059
研究機関	国立情報学研究所
研究代表者	山田誠二国立情報学研究所, コンテンツ科学研究系, 教授 (50220380)
研究分担者	小野田崇 (財)電力中央研究所, システム技術研究所, 上席研究員 (40371661) 高間康史首都大学東京, システムデザイン研究科, 准教授 (20313364) 岡部正幸豊橋技術科学大学, 学内共同利用施設等, 助教 (50362330)
キーワード	情報収集 / 制約クラスタリング / ユーザフィードバック
研究概要	平成20年度は,我々の提案するインタラクティブ情報収集の枠組みの設計と,そこでのユーザフィードバックを最小にするインタラクションを設計した.インタラクティブ情報収集の枠組みとして,現時点で最も有効と考えられる設定を用いた.文書表現として,TF/IDFによるベクトル空間モデルを用いて,個々の文書を各語の出現頻度をベースにした文書ベクトルと呼ばれる多次元ベクトルで表現する.そして,ユーザが最初に入力したクエリのベクトルと各文書ベクトルとの類似度関数として,余弦類似度を用いた. 次に最小ユーザフィードバックを実現する手続きを開発した.判定文書数が最小になるように,文書判定手続きを定義する.我々の提案する枠組みでは,ユーザが判定した文書を,適合文書を正例データ,非適合文書を負例データとする分類学習を行うため,手続き的に判定文書数を最小にすることは,訓練データ数を最小にすることを意味する.我々の提案する最小ユーザフィードバック手続きとは,「適合文書と非適合文書がそれぞれ1つになるまで,ヒットリスト上位から順番に文書を判定する」ことである. この手続きを基に,最小の制約で最大の効果が得られる,距離学習ベースの制約クラスタリングアルゴリズム,独立成分分析ベースの制約クラスタリングアルゴリズム,そして,制約獲得向けのユーザインタフェースの開発を行った.