一般にWebページ上には文章、音楽、画像等の多様な形態の情報が含まれており、その内容を理解して関連ページを集めることは人間にとっても容易ではない。コンピュータ上でそのような処理を実現するために、本研究ではハイパーリンクのグラフ構造に基づいてページの関連性を見出す試みを行なっている。本年度は、興味を共有するWebコミュニティを発見するための手法の研究を中心に行なった。この手法は、Webのハイパーリンクのグラフ構造に含まれている完全2部グラフをコミュニティとみなし、入力されたURL数個を含んだ完全2部グラフをリンクの共起性に基づいて探索するものである。関連研究としては、Web全体のグラフ構造のスナップショットデータから固定サイズの2部グラフの探索を行なうKumarらの研究があるが、本研究においてはサーチエンジンでのbacklink検索によって入力URLに関連しているURLを見出し、それを逐次追加していくことによってコミュニティを見出している。これにより、大規模なデータを必要とせずに処理を行なうことができる。この手法に基づいたシステムをJava言語を用いて構築し動作させたところ、数多くのジャンルにおいて関連性のあるページ集合を見出すことに成功している。また、この発見されたコミュニティを視覚化システムと組み合わせることによって、コミュニティ内の構造を視覚化する試みも行なった。その結果、例えばジャンルFinanceにおいては証券取引所のサイトを中心としたスター型のグラフになるというように、ジャンルにおける内容的な特徴を反映したグラフを数多く生成することができ、ハイパーリンクを基にしたアプローチの有効性を示すことができた。
|