2004 Fiscal Year Annual Research Report
「サイト」を効果的に活用したWeb上の情報発見手法に関する研究
Project/Area Number |
16700003
|
Research Institution | Tohoku University |
Principal Investigator |
浅野 泰仁 東北大学, 大学院・情報科学研究科, 助手 (20361157)
|
Keywords | Web / サイト / コミュニティ / 情報発見・検索 |
Research Abstract |
1 東京大学生産技術研究所喜連川研究室から提供を受けた,日本語Webページの約3億のURL(ページ)と約10億のリンクを含むテキストデータをサーバごとにデータベース化した.このデータを用いて,提案手法であるフィルタ法を用い,約600万のディレクトリベースドサイトを抽出した.なお,この手法の誤り率は5%以下と非常に低いことをも検証した.なお,ディレクトリベースドサイトは我々が提案したサイトのモデルである. 2 Web上の情報検索手法の一つとして,コミュニティ(ユーザーによって入力されたページに関連するページの集合)を求めるものがある.代表的なものとしては,Flakeらによって最小カット法が提案されている.しかし,この手法はページとページの間のリンクのグラフ構造に対して最小カットを見つけることでコミュニティを求めており,サイトを用いることが最小カット法にどれだけ有用であるかはわかっていなかった. 我々はまず,最小カット法を,サイト間のリンクの成すグラフの上で動かす手法を提案し,実験を行った.結果として,サイトを用いた枠組みを用いた最小カット法は既存の(ページを用いた)手法と比べて精度(出力されたサイトのうち,実際に入力ページに関連していたものの割合)をほとんど落とさずに,平均2倍程度の大きさのコミュニティを得られることがわかった. 我々はさらに,より精度を向上させるために,既存の最小カット法がページを用いることを前提としていたがゆえに内包していた問題点を明らかにした.なお,問題点は,ページを用いていたのではサイト間同士の強い関係を表す「相互リンク」を正しく利用することができないことなど,全部で4つある.我々はこれらの問題点に対する解決案を提案し,上記の手法に適用した結果,精度も既存の手法の約67%から約85%へと大幅に向上させることに成功した.コミュニティの大きさも既存の手法の3倍程度となった.我々はこの結果を論文にまとめ,投稿中である.
|