本研究では、「クラスタ指向インデキシング」と呼ぶ情報検索の枠組みを提案し、代表的ないくつかの文書コレクションへの適用による実証面での評価を行った。 提案手法は、申請者の提案による「確率重み付き情報量」を評価基準として語や文書の同時クラスタリングを行うもので、関連文書や語のマイニングによるグループ化を情報検索におけるインデキシング操作と対応付けて、検索用資源の自動構築および活用を目指す点が特徴である。また、現実的な規模の文書コレクションに対応するために、確率的に生成した初期クラスタに対して局所的な最適化を適用しており、遺伝的アルゴリズムにおける「共進化的な」アプローチを情報検索分野に適用したものであるといえる。 本研究ではまた、NTCIRlから抽出した学会発表論文の抄録、毎日新聞・日経新聞のCD-ROM版、海外の新聞記事であるReutersやFinancial Times等、数万件から数十万件の規模の文書コレクションに対して提案手法を適用して有効性を調べた。テキスト分類問題の枠組みを用いた評価によって、分類の再現率は、やや落ちるものの優れた機械学習法として知られるサポートベクタマシンとほぼ互角であり、従来の自動分類では扱いがむずかしかったカテゴリ境界上の文書のグループ化が可能であることを確認した。
|