2006 Fiscal Year Annual Research Report
Webグラフ-インターネットの離散構造モデルの解析と最適化アルゴリズムの開発
Project/Area Number |
15500015
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
宇野 裕之 大阪府立大学, 理学系研究科, 講師 (60244670)
|
Keywords | Webグラフ / データ・マイニング / 列挙問題 / グラフ・アルゴリズム / コミュニティ |
Research Abstract |
ウェブのリンク構造を有向グラフとしてモデル化したウェブグラフについて,その研究の創始より8年あまりが経過したいま,われわれはそのモデルを再評価するとともに,ウェブグラフで動作するさまざまなアルゴリズムの設計・開発やそれらの最適化を行っている.なかでも,ウェブにアップロードされている情報を巨大なデータベースと見なし,そこから有益な情報を発見するデータマイニング技術は重要かつ不可欠である.今年度は昨年度に引き続き,そのモデル上で行われるウェブ構造マイニングに関する研究を重点的に実施し,以下に示すような重要な結果を得ている. 1.ウェブ構造マイニングでは,ウェブ上で特定の話題に興味を持つコミュニティの発見などを目指すが,コミュニティやその核となるページは,ウェブグラフ内の密な部分構造を構成していると考えられてきた.過去の研究ではその候補として2部クリークなどがあったが、十分な情報が発見できたとの結果は必ずしも多くない.そこで,実際のウェブデータからこれらの構造をあらためて列挙することにより,その原因となっている構造を発見し,その意味を解明した. 2.上記に替わりコミュニティを表現する可能性がある有望な構造として,近年提案された孤立クリークがある.孤立クリークは,クリークなどと比較してその構造が単純であるため,ウェブ規模のデータに対してもその列挙が可能となる.実際のウェブデータに対して実験を行った結果,孤立クリークはそのほとんどが単一ドメイン内部に存在し,リンクファームと呼ばれる人為的で有害なリンクの検出に有効であることが判明した.また少数ではあるがコミュニティも発見され、部分構造としての有用性が確認された. 3.さらにウェブデータから構築されたウェブグラフを観察することで,新たな頻出構造を発見した.われわれはそれらに列挙が容易となる定義を与えて孤立スターと命名し,実際のウェブデータからの列挙実験を行った.その結果,孤立スターもそのほとんどが単一ドメイン内部に存在し,リンクファームと呼ばれる人為的で有害なリンクの検出にも有効であることが判明した.また少数ではあるがコミュニティも発見され、部分構造としての有用性も確認した.
|