膨大なWeb情報の有効活用を目指し、ハイパーリンクのグラフ構造に基づいてWebページ間の関連性を見出すWeb構造マイニングの研究を引き続き行なった。平成14年度は、興味を共有するWebページ集合であるWebコミュニティを、ハイパーリンクによるグラフ構造に基づいてモデル化する手法についての考察を進めた。まずWebコミュニテイ発見の関連研究を詳しく調べ、その課題と今後の方向性について検討した。Webコミュニテイ発見の関連研究としては、固定した二部グラフ構造を探索するKumarらの手法と、ネットワーク理論を適用したFlakeらのグラフ分割の手法の二つに大きく分類できる。前者は、二部グラフという構造だけでしかWebコミュニティをとらえられないことが欠点であり、後者は適用方法によって結果にかなり差が出ることが指摘されている。また、二部グラフ以外の基本要素について、構造と意味の対応を十分に立証している研究は見受けられなかった。実際のWebコミュニティを構成している基本要素や、その組み合わせによる構造生成の可能性について、さらなる検討の必要性が明らかになった。 また、Webコミュニティにおいては、グラフ構造が密な部分が中心的なページであるとの仮定の基に、Webコミュニティを洗練する手法についての論文をまとめた。実験の結果、いくつかのトピックについて、そのトピックにおけるランキングが上位のページを発見している。この手法をさらに発展させるためには、Webコミュニティの境界や中心などの概念について検討し明確な定義を与える必要があり、それについても検討を進めた。
|