言葉の関連の強さに関する情報を保持した知識ベースを構築し、ユーザの検索時の観点を考慮した単語間の距離情報を知識ベースから抽出する方法、及びその単語間の距離情報を利用した文献の分類(クラスタリング)方法を提案した。これらの方法論の根幹にあるのは、既存の文書に含まれる単語の出現頻度データに基づいて、多次元尺度構成法により構築した知識ベースにある。そして単語が布置された多次元空間内の特定の軸(観点ベクトル)への射影によって、ユーザの観点に応じて単語間の距離を評価するのが特徴である。観点ベクトルはユーザから入力されたキーワードから推測する。 方法論の有効性を検証するため、サンプル文書群を用いて実際に知識ベースを構築し、いくつかのキーワード集合を与えて文書クラスタリングを行った。ほとんどの実験において、キーワード集合と関係の強い文書クラスタを得ることができた。文書内にキーワードが含まれていない場合でも、関連が強いクラスタに属する傾向が強いことがわかった。これは、提案する方法論で求めた観点ベクトルを用いて射影した空間における単語間の距離が、ユーザの観点における単語間の関連の強さをよく反映しているということである。 さらに絞込検索に応用するため、最初に投入されたキーワードを元に射影された空間に対し、絞り込みキーワードによる新たな射影を行って空間を構成した。絞込みキーワードによる射影の構成として様々なものを試みたが、いずれも満足の行く結果を得られなかった。最初のキーワード投入で選ばれた文献だけを用いて再度空間構成を行えば、その空間に対して絞込みを行うことは可能であった。これは、最初に構成した空間は、類似した文献は局所化して布置するが、それら類似した文書の相違が反映されていないことを強く示唆する。 今後は各段階での文書群の提示方法を工夫し、ユーザが特定の文書クラスタ内の検索を容易にできるような方法の開発が必要である。
|