2007 Fiscal Year Annual Research Report
悪質スパムページを自動除去可能な高品位ウェブ情報検索手法の構築
Project/Area Number |
18700078
|
Research Institution | Kyoto University |
Principal Investigator |
浅野 泰仁 Kyoto University, 情報学研究科, GCOE助教 (20361157)
|
Keywords | Web / スパム / 情報検索 |
Research Abstract |
本研究では,Web上のコミュニティ(関連するページの集合)を求める情報検索手法として代表的なFlakeらの最小カット法の問題点を調べることによって,スパムリンクに関する様々な知見を得た.これをもとに,スパムリンクを自動的に除去することで,悪質なスパムページが情報検索の結果から除かれるような高精度の手法を提案した.具体的には,Webページの重要度を計算する著名なアルゴリズムであるHITSを改良した.HITSアルゴリズムは,Kleinbergによって提案された当時は高い精度を持っていたが,現在のWebにおいてはスパムページの増加により精度が低くなっていた.本研究では,スパムリンクを自動的に除去してHITSの精度を高めるために,2つの手法を提案した.1つは,Webページが属するホストが利用しているDNSサーバーの名前を用いてスパムリンクの集合である「リンクファーム」を発見し除去する手法である.もう1つは,ページの信頼度を計る手法としてGyongiらによって提案されたTrustRankと呼ばれる手法のアイディアをHITSに適合するように工夫して,ページがスパムでない確率を評価することができるようにした「トラストスコア」である.これら2つの手法をHITSに組み込むことで,その精度を大幅に高めることができた.本研究の成果は,"Improvements of HITS Algorithm for Spam Links"という表題で,APWeb/WAIM国際会議にregular paperとして採録された.なお,本会議のregular paperの採択率は9%以下であった.また、この成果はIEICEの論文誌にも採録された.
|
Research Products
(2 results)