2006 Fiscal Year Annual Research Report
悪質スパムページを自動除去可能な高品位ウェブ情報検索手法の構築
Project/Area Number |
18700078
|
Research Institution | Tokyo Denki University |
Principal Investigator |
浅野 泰仁 東京電機大学, 理工学部, 講師 (20361157)
|
Keywords | web / スパム / 情報検索 |
Research Abstract |
1 Web上の情報検索手法の一つに,コミュニティ(関連するページの集合)を求めるものがある.代表的なものとしてFlakeらの最小カット法があるが,サイトを用いることが最小カット法にどれだけ有用であるかはわかっていなかった. 本研究では,最小カット法がページを用いていたがゆえに内包していた問題点を明らかにした.なお,問題点は,ページを用いていたのではスパムリンクが多く、有益な「相互リンク」を正しく利用することができないことなど,全部で4つある. 本研究はこれらの問題点に対する解決法を提案し,サイトを用いた上記の手法に適用した結果,精度も既存の手法の約46%から約72%へと大幅に向上させることに成功した.コミュニティの大きさも既存の手法の2倍程度となった.また,提案した解決法の効果を詳しく解析し,サイトを効果的に用いることがWeb情報発見手法に大きく役立つことを示した.この結果はIEICEの論文誌にも採録された。 2 上記の研究1で得られた知見を元に、Webページの重要度を計算する著名なアルゴリズムであるHITSを改良した。HITSアルゴリズムは、Kleinbergによって提案された当時は有効であったが、現在のWebにおいてはスパムページの増加により精度が低くなっていた。本研究では、これらのスパムを自動的に除去すべく、スパムリンクの集合である「リンクファーム」の発見手法と、ページがスパムでない確率を評価する「トラストスコア」を導入することで、HITSの精度を大幅に高めることができた。本研究の成果は、"Improvements of HITS Algorithm for Spam Links"という表題で、APWeb/WAIM国際会議にregular paperとして採録された。なお、本会議のregular paperの採択率は9%以下であった。また、この成果は論文誌に投稿中である。
|
Research Products
(1 results)