2003 Fiscal Year Annual Research Report
バックリンクに基づく高品質クラスタリング手法の開発と日本全ウェブページへの適応
Project/Area Number |
02F00114
|
Research Institution | The University of Tokyo |
Principal Investigator |
喜連川 優 東京大学, 生産技術研究所, 教授
|
Co-Investigator(Kenkyū-buntansha) |
王 軼とん 東京大学, 生産技術研究所, JSPS特別研究員
|
Keywords | Data Mining / Web mining / Web clustering / link Analysis / Anchor Window |
Research Abstract |
本研究では、リンク情報に基づくクラスタリング技術に加え、ページの内容を考慮したクラスタリング技法を開発することを目的としている。昨年度は、特定のトピクスに対する実証実験を行い、提案する方式の有効性を確認した。本年度は、昨年度の結果をさらに拡張し、様々のトピクスへの適応性を備え、高品質の結果を得られる方式の検討を行った。 1.40以上の様々なトピクスを用いて、提案する方式とWWW検索エンジンの結果について、詳細に検討、比較を行った 2.トピクスをカテゴリーごとに分類しているオープンディレクトリ(www.dmoz.com)の結果を比較することにより、提案する方式が異なるタイプのトピクスに対して有効であることを示した。 3.提案する方式の結果をコンテンツクラスタリング検索エンジン(www.vivisimo)と比較し、我々の方式が有効であることを確認した。 4.異なるタイプのトピクス(内容が多岐にわたるもの、多岐ではないが抽象的なもの、限られたもの)ごとに、検索エンジンで得られた結果および検索エンジンの応答性能について詳細に解析を行った。 5.以上の詳細な評価結果から、提案する方式が一般的なトピクス(抽象度の高い"HIV"などのキーワード)に関して品質が良くないことが確認できた。そこで、新たにインリンク解析の強化およびアンカーウィンドウの解析を加えることで、提案する方式が多様なトピクスに対応可能であることを示した。 今後は、WWWの最大の特長である容量に対処すべく、密度ベースクラスタリング方式を用いて提案した方式の性能向上を目指す予定である。
|
Research Products
(1 results)