2005 Fiscal Year Annual Research Report
Project/Area Number |
05F05281
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
奥村 学 東京工業大学, 精密工学研究所, 助教授
|
Co-Investigator(Kenkyū-buntansha) |
KIM Sang-Bum 東京工業大学, 精密工学研究所, 外国人特別研究員
|
Keywords | 情報検索 / 文書クラスタリング / 適合性フィードバック / 用語選択 / TREC |
Research Abstract |
ベクトル空間モデル,確率モデルといった,多くのランキングアルゴリズムが1960年代から開発されてきている.その他に,検索結果を組織化するクラスタリング手法に関する研究が行われてきている.今年度ではまず,伝統的なテキストクラスタリング技術の調査を行った.次に,その調査結果に基づき,検索結果の文書集合を効果的にクラスタリングする手法の設計を行った. 検索結果のクラスタリングでは,時間効率もまた重要な考慮点である.なぜなら,たとえクラスタリング結果が見易く,ユーザ親和的であろうとも,待たされるのであればユーザは不満を感じるであろう.そのため,我々は,検索結果を効率的に組織化する,単純なランキングに基づくクラスタリングアルゴリズムを設計した. 次に,このアルゴリズムを元に,組織化された結果を提示するプロトタイプシステムを実装した.さらに,そのシステムを用いた実験を行った. 100のTRECのクエリと適合文書集合を用い,適合文書集合全体あるいはその部分から元のクエリを自動的に生成できるかを調査した.適合文書集合の最適なクラスタラベルとして,各クエリを生成できるかどうかを評価していることを意味している.クラスタのキーワードを選択するアルゴリズムとして,OLF^*OGFとRSVの2つのアルゴリズムを比較した. 伝統的なRSV手法が最近提案されたOLF^★OGF手法よりもかなり良い結果を残した.
|