第1年次にあたる本年は、(1)テキストコーパスからの特徴語抽出手法、(2)共進化アルゴリズムの枠組みを用いた情報検索手法、の2点について調査および研究を行った。 テキストコーパスからの特徴語抽出手法については、「確率重み付き情報量」と呼ぶ尺度に基づく語の重み付け方法およびテキスト分類基準を提案し、テキスト分類の典型的なベンチマーク問題である英文新聞記事(Reuters-21578)、および学会発表データベースに登録された論文抄録約30万件を用いて実験による手法評価を行った。現在テキスト分類で最も優れた性能を示す手法の1つであるサポートベクターシンを比較対象として、分類性能、分類時間、クラスサイズの偏りに対する頑強性などを比較した。実験結果により、繊密な学習アルゴリズムを適用しなくても、提案する重み付け法を工夫することで高速にテキスト分類が実現できることを示し、提案手法の有効性を検証した。具体的には最大サイズの問題について、サポートベクタマシンを学習アルゴリズムとして適用する場合との性能比較は、分類誤りで2〜3%程度の低下、実行時間で1日が10分になる短縮であった。 また、共進化アルゴリズムの枠組みを用いた情報検索へのアプローチの試みとして、上記で提案した「確率重み付き情報量」を評価基準として、語や文書の双対的なクラスタリングを行う手法を提案した。提案するクラスタリング手法では、語や文書の同時クラスタリングを情報検索におけるインデクシング操作とみなし、従来の教師なし学習によるクラスタリングよりも粒度が小さいクラスタを確率的に生成する。特徴としては、計算時間を効率化するために初期クラスタの生成時にグラフ的な局所処理を適用していること、評価関数として確率重み付き情報量を用いてクラスタを局所最適化していることなどがあげられる。また、提案手法は、語-文書の2項組に限らず、語-文書-著者-著者キーワードのような3以上の属性の組に適用可能である。現在、提案手法の予備的な実装および評価を進めており、次年度では、クラスタリング手法を詳細化するとともに、適用範囲を広げ実用的な観点からの評価を行う予定である。
|