2001 Fiscal Year Annual Research Report
共進化メカニズムに基づく語-文書クラスタリングに関する研究
Project/Area Number |
13680473
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, 情報基盤研究系, 助教授 (90222447)
|
Keywords | 情報検索 / 双対的クラスタリング / テキスト自動分類 / 確率重み付き情報量 / マイクロクラスタリング / 共進化アルゴリズム / 進化論的計算 / 学会発表データベース |
Research Abstract |
第1年次にあたる本年は、(1)テキストコーパスからの特徴語抽出手法、(2)共進化アルゴリズムの枠組みを用いた情報検索手法、の2点について調査および研究を行った。 テキストコーパスからの特徴語抽出手法については、「確率重み付き情報量」と呼ぶ尺度に基づく語の重み付け方法およびテキスト分類基準を提案し、テキスト分類の典型的なベンチマーク問題である英文新聞記事(Reuters-21578)、および学会発表データベースに登録された論文抄録約30万件を用いて実験による手法評価を行った。現在テキスト分類で最も優れた性能を示す手法の1つであるサポートベクターシンを比較対象として、分類性能、分類時間、クラスサイズの偏りに対する頑強性などを比較した。実験結果により、繊密な学習アルゴリズムを適用しなくても、提案する重み付け法を工夫することで高速にテキスト分類が実現できることを示し、提案手法の有効性を検証した。具体的には最大サイズの問題について、サポートベクタマシンを学習アルゴリズムとして適用する場合との性能比較は、分類誤りで2〜3%程度の低下、実行時間で1日が10分になる短縮であった。 また、共進化アルゴリズムの枠組みを用いた情報検索へのアプローチの試みとして、上記で提案した「確率重み付き情報量」を評価基準として、語や文書の双対的なクラスタリングを行う手法を提案した。提案するクラスタリング手法では、語や文書の同時クラスタリングを情報検索におけるインデクシング操作とみなし、従来の教師なし学習によるクラスタリングよりも粒度が小さいクラスタを確率的に生成する。特徴としては、計算時間を効率化するために初期クラスタの生成時にグラフ的な局所処理を適用していること、評価関数として確率重み付き情報量を用いてクラスタを局所最適化していることなどがあげられる。また、提案手法は、語-文書の2項組に限らず、語-文書-著者-著者キーワードのような3以上の属性の組に適用可能である。現在、提案手法の予備的な実装および評価を進めており、次年度では、クラスタリング手法を詳細化するとともに、適用範囲を広げ実用的な観点からの評価を行う予定である。
|
Research Products
(6 results)
-
[Publications] 相澤 彰子: "Naive手法によるテキスト分類問題へのアプローチ"2001年情報論的学習理論ワークショップ予稿集. 123-128 (2001)
-
[Publications] Akiko Aizawa: "Linguistic Techniques to Improve the Performance of Automatic Text Categorization"Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS2001). 307-314 (2001)
-
[Publications] 相澤彰子: "Naive手法による大規模テキスト分類問題へのアプローチ"情報処理学会 自然言語処理研究報告. 147-7. 41-46 (2002)
-
[Publications] 相澤彰子: "情報空間における双対的クラスタリングの試み"人工知能学会 人工知能基礎論研究会資料(第48回). SIG-FAI-A104. 85-90 (2002)
-
[Publications] Akiko Aizawa: "An Information-Theoretic Perspective of Tf-idf Measures"Information Processing & Management. (accepted).
-
[Publications] Akiko Aizawa: "A Co-evolutionary Framework for Clustering in Information Retrieval Systems"the IEEE 2002 Congress on Evolutionary Computation. (accepted).