研究課題/領域番号 |
13680473
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 国立情報学研究所 |
研究代表者 |
相澤 彰子 国立情報学研究所, 情報基盤研究系, 助教授 (90222447)
|
研究期間 (年度) |
2001 – 2002
|
研究課題ステータス |
完了 (2002年度)
|
配分額 *注記 |
4,100千円 (直接経費: 4,100千円)
2002年度: 2,200千円 (直接経費: 2,200千円)
2001年度: 1,900千円 (直接経費: 1,900千円)
|
キーワード | 情報検索 / 双対的クラスタリング / テキスト自動分類 / 確率重み付き情報量 / マイクロクラスタリング / 共進化アルゴリズム / 進化論的計算 / 学会発表データベース |
研究概要 |
本研究では、「クラスタ指向インデキシング」と呼ぶ情報検索の枠組みを提案し、代表的ないくつかの文書コレクションへの適用による実証面での評価を行った。 提案手法は、申請者の提案による「確率重み付き情報量」を評価基準として語や文書の同時クラスタリングを行うもので、関連文書や語のマイニングによるグループ化を情報検索におけるインデキシング操作と対応付けて、検索用資源の自動構築および活用を目指す点が特徴である。また、現実的な規模の文書コレクションに対応するために、確率的に生成した初期クラスタに対して局所的な最適化を適用しており、遺伝的アルゴリズムにおける「共進化的な」アプローチを情報検索分野に適用したものであるといえる。 本研究ではまた、NTCIRlから抽出した学会発表論文の抄録、毎日新聞・日経新聞のCD-ROM版、海外の新聞記事であるReutersやFinancial Times等、数万件から数十万件の規模の文書コレクションに対して提案手法を適用して有効性を調べた。テキスト分類問題の枠組みを用いた評価によって、分類の再現率は、やや落ちるものの優れた機械学習法として知られるサポートベクタマシンとほぼ互角であり、従来の自動分類では扱いがむずかしかったカテゴリ境界上の文書のグループ化が可能であることを確認した。
|