研究概要 |
第2年次(最終年度)にあたる本年は、昨年度の検討に基づき「クラスタ指向インデキシング」と呼ぶ情報検索の枠組みを提案し、ICEC2002 (IEEE 2002 Congress on Evolutionally Computation,ソフトコンピューティング分野)、PRICAI 2002 (Paciffic Rim Conference on Artificial Intelligence,人工知能分野)、COLING (International Conference on Computational Linguistics,自然言語処理分野)の国際会議等で発表を行った。また、代表的ないくつかの文書コレクションに提案手法を適用して実証面での評価を行い今後の展望について考察を加えた。 提案した「クラスタ指向インデキシング」は、すでに申請者が提案した「確率重み付き情報量」を評価基準として語や文書の同時クラスタリングを行うもので、関連文書や語のマイニングによるグループ化を情報検索におけるインデキシング操作とみなして、検索用の資源を構築・活用する点が特徴である。ここで、提案手法が生成するクラスタは、従来の教師なし学習によるクラスタリングよりも粒度が小さく、ファジーセットや連想記憶と関連が深い。また、現実的な規模の文書データに対応するために、提案手法では確率的に生成した初期クラスタに対して局所的な最適化を適用している点で、遺伝的アルゴリズムにおける「共進化的な」アプローチを実現しているといえる。 実験では学会発表データベースに登録された論文抄録、毎日新聞記事、海外の新聞記事であるReutersおよびFinancial Times等、数万件から数十万件の規模の文書コレクションに対して提案手法を適用して有効性を調べた。テキスト分類問題の枠組みを用いた評価によって、分類の再現率はやや落ちるものの、同一クラスタにまとめられる文書の間には強い意味的な結びつきが存在すること、従来の自動分類では扱いがむずかしかった境界上の文書(複数の話題にかかわる文書群)のグループ化が可能であること等を確認した。 最後に、今後の検討課題として以下の2つがあげられる。第一に、提案手法では文書グループと同時に関連語の集合を抽出するが、これらの語は文書間で共有される話題に対応している。そこで今後、簡単な自動要約による可読性の向上といった方向を検討して行くことが考えられる。第二に、提案手法は「語-文書」の2項組に限らず、「語-文書-著者-著者キーワード」、「和用語-英用語-関連分野」のような3以上の属性の組に適用可能である。これを利用して、著者コミュニティの自動抽出や、分野に特化した専門用語辞書の自動生成等を行うことが考えられる。
|