研究概要 |
ウェブのリンク構造を有向グラフとしてモデル化したものをウェブグラフと呼び,1990年代末から活発に研究が行われている.われわれはそのモデルの妥当性などを再評価するとともに,ウェブグラフで動作するさまざまなアルゴリズムの設計・開発やそれらの最適化を行ってきた.なかでも,ウェブにアップロードされている情報を巨大なデータベースと見なし,そこから有益な情報を発見するデータマイニング技術は重要かつ不可欠であると考え,そのモデル上で行われるウェブ構造マイニングに関する研究を重点的に実施し,以下に示すような重要な結果を得た. 1.ウェブ構造マイニングは,ウェブ上で特定の話題に興味を持つコミュニティの発見などを目指すが,コミュニティやその核となるページは,ウェブグラフ内の密な部分構造を構成していると考えられてきた.過去の研究ではその候補として2部クリークなどがあったが,十分な情報が発見できたとの結果は必ずしも多くない.そこで,実際のウェブデータからこれらの構造をあらためて列挙することにより,その原因となっている構造を発見し,その意味を解明した. 2.上記に代わりコミュニティを表現する可能性がある有望な構造として,孤立クリークがある.孤立クリークは,クリークなどと比較してその構造が単純であるため,ウェブ規模のデータに対してもその現実的な列挙が可能となる.実際のウェブデータに対して実験を行った結果,孤立クリークはそのほとんどが単一ドメイン内部に存在し,リンクファームと呼ばれる人為的で有害なリンクの検出に有効であることが判明した.また少数ではあるがコミュニティも発見され,部分構造としての有用性が確認された. 3.さらにウェブデータから構築されたウェブグラフを観察することで,新たな頻出構造を発見した.われわれはそれらに列挙が容易となる特徴を与えて孤立スターとして定義し,実際のウェブデータからの列挙実験を行った.その結果,孤立スターもそのほとんどが単一ドメイン内部に存在し,リンクファームと呼ばれる人為的で有害なリンクの検出にも有効であることが判明した.また少数ではあるがコミュニティも発見され,部分構造としての有用性も確認した.
|