• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2004 年度 実績報告書

「サイト」を効果的に活用したWeb上の情報発見手法に関する研究

研究課題

研究課題/領域番号 16700003
研究機関東北大学

研究代表者

浅野 泰仁  東北大学, 大学院・情報科学研究科, 助手 (20361157)

キーワードWeb / サイト / コミュニティ / 情報発見・検索
研究概要

1 東京大学生産技術研究所喜連川研究室から提供を受けた,日本語Webページの約3億のURL(ページ)と約10億のリンクを含むテキストデータをサーバごとにデータベース化した.このデータを用いて,提案手法であるフィルタ法を用い,約600万のディレクトリベースドサイトを抽出した.なお,この手法の誤り率は5%以下と非常に低いことをも検証した.なお,ディレクトリベースドサイトは我々が提案したサイトのモデルである.
2 Web上の情報検索手法の一つとして,コミュニティ(ユーザーによって入力されたページに関連するページの集合)を求めるものがある.代表的なものとしては,Flakeらによって最小カット法が提案されている.しかし,この手法はページとページの間のリンクのグラフ構造に対して最小カットを見つけることでコミュニティを求めており,サイトを用いることが最小カット法にどれだけ有用であるかはわかっていなかった.
我々はまず,最小カット法を,サイト間のリンクの成すグラフの上で動かす手法を提案し,実験を行った.結果として,サイトを用いた枠組みを用いた最小カット法は既存の(ページを用いた)手法と比べて精度(出力されたサイトのうち,実際に入力ページに関連していたものの割合)をほとんど落とさずに,平均2倍程度の大きさのコミュニティを得られることがわかった.
我々はさらに,より精度を向上させるために,既存の最小カット法がページを用いることを前提としていたがゆえに内包していた問題点を明らかにした.なお,問題点は,ページを用いていたのではサイト間同士の強い関係を表す「相互リンク」を正しく利用することができないことなど,全部で4つある.我々はこれらの問題点に対する解決案を提案し,上記の手法に適用した結果,精度も既存の手法の約67%から約85%へと大幅に向上させることに成功した.コミュニティの大きさも既存の手法の3倍程度となった.我々はこの結果を論文にまとめ,投稿中である.

  • 研究成果

    (2件)

すべて 2004

すべて 雑誌論文 (2件)

  • [雑誌論文] Finding Neighbor Communities in the Web using an Inter-Site Graph2004

    • 著者名/発表者名
      Yasuhito Asano
    • 雑誌名

      IEICE Trans.Inf.Syst. E87-D(9)

      ページ: 2163-2170

  • [雑誌論文] Compact Encoding of the Web Graph Exploiting Various Power Distributions.2004

    • 著者名/発表者名
      Yasuhito Asano
    • 雑誌名

      IEICE Trans.Fundamentals, Special Section on Discrete Mathematics and Its Applications E87-A(5)

      ページ: 1183-1184

URL: 

公開日: 2006-07-12   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi