研究課題/領域番号 |
02F00114
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 外国 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 東京大学 |
研究代表者 |
喜連川 優 東京大学, 生産技術研究所, 教授
|
研究分担者 |
王 軼とん 東京大学, 生産技術研究所, JSPS特別研究員
|
研究期間 (年度) |
2002 – 2003
|
研究課題ステータス |
完了 (2003年度)
|
配分額 *注記 |
1,900千円 (直接経費: 1,900千円)
2003年度: 900千円 (直接経費: 900千円)
2002年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | Data Mining / Web mining / Web clustering / link Analysis / Anchor Window / Link Analysis / Anehos Window |
研究概要 |
本研究では、リンク情報に基づくクラスタリング技術に加え、ページの内容を考慮したクラスタリング技法を開発することを目的としている。昨年度は、特定のトピクスに対する実証実験を行い、提案する方式の有効性を確認した。本年度は、昨年度の結果をさらに拡張し、様々のトピクスへの適応性を備え、高品質の結果を得られる方式の検討を行った。 1.40以上の様々なトピクスを用いて、提案する方式とWWW検索エンジンの結果について、詳細に検討、比較を行った 2.トピクスをカテゴリーごとに分類しているオープンディレクトリ(www.dmoz.com)の結果を比較することにより、提案する方式が異なるタイプのトピクスに対して有効であることを示した。 3.提案する方式の結果をコンテンツクラスタリング検索エンジン(www.vivisimo)と比較し、我々の方式が有効であることを確認した。 4.異なるタイプのトピクス(内容が多岐にわたるもの、多岐ではないが抽象的なもの、限られたもの)ごとに、検索エンジンで得られた結果および検索エンジンの応答性能について詳細に解析を行った。 5.以上の詳細な評価結果から、提案する方式が一般的なトピクス(抽象度の高い"HIV"などのキーワード)に関して品質が良くないことが確認できた。そこで、新たにインリンク解析の強化およびアンカーウィンドウの解析を加えることで、提案する方式が多様なトピクスに対応可能であることを示した。 今後は、WWWの最大の特長である容量に対処すべく、密度ベースクラスタリング方式を用いて提案した方式の性能向上を目指す予定である。
|