研究課題
ウェブのリンク構造を有向グラフとしてモデル化したウェブグラフについて、その研究の黎明より7年あまりが経過したいま、われわれはそのモデルを再評価し、ウェブグラフで動作するさまざまなアルゴリズムの設計・開発や最適化を行っている。なかでも、ウェブにアップロードされている情報を巨大なデータベースと見て、そこから有益な情報を発見するデータマイニング技術は不可欠かつ重要である。今年度は、そのモデル上で行われるウェブ構造マイニングに関する研究を重点的に実施し、ついての再評価を行い、下記に示すような重要な結果を得ている。1.ウェブ構造マイニングでは、ウェブ上で特定の話題に興味を持つコミュニティの発見などを目指すが、コミュニティやその核となるページは、ウェブグラフ内の密な部分構造を構成していると考えられている。過去の研究では、その候補として2部クリークやクリークなどがあったが、十分な情報が発見できたとの結果は、必ずしも多くない。そこで、実際のウェブデータからこれらの構造をあらためて列挙することにより、その原因となっている構造とその意味を明らかし、解明した。2.上記に変わりコミュニティを表現する可能性がある有望な構造として近年提案されているものに、孤立クリークと呼ばれるものがある。孤立クリークは、クリークと比較してその構造が単純であるため、ウェブ規模のデータに対してもその列挙が可能であり、われわれは実際のウェブデータに対してその実験を行った。その結果、孤立クリークは、そのほとんどが単一ドメイン内部に存在し、クリークとあわせてリンクファームと呼ばれる人為的で有害なリンクの検出に有効であることが判明した。また、少数ではあるがコミュニティも発見され、部分構造としての孤立クリークの有用性が確認された。上記の結果を含む、今年度までに本研究で得られたさまざまな結果により、この方向の研究は大いに有望で未着手の問題が多数残されていることが分かった。来年度以降、今年度の成果を公表するとともに、引き続きこれらの問題を解決することを目指す。
すべて 2006 2005
すべて 雑誌論文 (3件)
IEICE Technical Report, SIG-WI2 17
ページ: 83-88
Proc.17th IFORS Conference
ページ: 25-25
Lecture Notes in Computer Science, Springer 3827
ページ: 186-195