ウェブのリンク構造を有向グラフとしてモデル化したウェブグラフについて、その研究の創始より9年あまりが経過したいま、われわれはそのモデルを再評価するとともに、ウェブグラフで動作するさまざまなアルゴリズムの設計・開発やそれらの効率化を目指している.なかでも、ウェブにアップロードされている情報を巨大なデータベースと見なし、そこから有益な情報を発見するデータマイニング技術は重要かつ不可欠である.今年度は、そのモデル上で行われるウェブ構造マイニングに関する研究を重点的に実施し、以下に示すような結果を得ている. まずはじめに、実際のウェブデータから構築されたウェブグラフを観察することで、孤立クリークや孤立スターと呼ばれる頻出部分構造が存在することを発見・同定した.その上で、これらの大きさの分布は、よく知られているスケールフリー性を満たすことが確認され、ウェブグラフの新たな理論モデルの手がかりとなった. さらにこれらの構造の中に、実際にコミュニティに対応する構造があること、しかしながらその大部分は単一ドメイン内部に存在するメニューやインデックス構造であることなどを確認した。また、すでにわれわれが提案済みである、このような頻出構造を縮約したウェブグラフを対象に構造マイニングを試みたところ、縮約前のグラフでは得られなかった新しい情報を発見することに成功した.さらに、このような縮約ウェブグラフにおいても、さまざまなスケールフリー性を観察した.
|