• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

悪質スパムページを自動除去可能な高品位ウェブ情報検索手法の構築

Research Project

Project/Area Number 18700078
Research InstitutionTokyo Denki University

Principal Investigator

浅野 泰仁  東京電機大学, 理工学部, 講師 (20361157)

Keywordsweb / スパム / 情報検索
Research Abstract

1 Web上の情報検索手法の一つに,コミュニティ(関連するページの集合)を求めるものがある.代表的なものとしてFlakeらの最小カット法があるが,サイトを用いることが最小カット法にどれだけ有用であるかはわかっていなかった.
本研究では,最小カット法がページを用いていたがゆえに内包していた問題点を明らかにした.なお,問題点は,ページを用いていたのではスパムリンクが多く、有益な「相互リンク」を正しく利用することができないことなど,全部で4つある.
本研究はこれらの問題点に対する解決法を提案し,サイトを用いた上記の手法に適用した結果,精度も既存の手法の約46%から約72%へと大幅に向上させることに成功した.コミュニティの大きさも既存の手法の2倍程度となった.また,提案した解決法の効果を詳しく解析し,サイトを効果的に用いることがWeb情報発見手法に大きく役立つことを示した.この結果はIEICEの論文誌にも採録された。
2 上記の研究1で得られた知見を元に、Webページの重要度を計算する著名なアルゴリズムであるHITSを改良した。HITSアルゴリズムは、Kleinbergによって提案された当時は有効であったが、現在のWebにおいてはスパムページの増加により精度が低くなっていた。本研究では、これらのスパムを自動的に除去すべく、スパムリンクの集合である「リンクファーム」の発見手法と、ページがスパムでない確率を評価する「トラストスコア」を導入することで、HITSの精度を大幅に高めることができた。本研究の成果は、"Improvements of HITS Algorithm for Spam Links"という表題で、APWeb/WAIM国際会議にregular paperとして採録された。なお、本会議のregular paperの採択率は9%以下であった。また、この成果は論文誌に投稿中である。

  • Research Products

    (1 results)

All 2006

All Journal Article (1 results)

  • [Journal Article] Mining Communities on the Web Using a Max-Flow and a Site-Oriented Framework2006

    • Author(s)
      Yasuhito Asano, Takao Nishizeki, Masashi Toyoda, Masaru Kitsuregawa
    • Journal Title

      IEICE Transactions on Information and Systems E89-D No. 10

      Pages: 2606-2615

URL: 

Published: 2008-05-08   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi