研究概要 |
本研究では,Web上のコミュニティ(関連するページの集合)を求める情報検索手法として代表的なFlakeらの最小カット法の問題点を調べることによって,スパムリンクに関する様々な知見を得た.これをもとに,スパムリンクを自動的に除去することで,悪質なスパムページが情報検索の結果から除かれるような高精度の手法を提案した.具体的には,Webページの重要度を計算する著名なアルゴリズムであるHITSを改良した.HITSアルゴリズムは,Kleinbergによって提案された当時は高い精度を持っていたが,現在のWebにおいてはスパムページの増加により精度が低くなっていた.本研究では,スパムリンクを自動的に除去してHITSの精度を高めるために,2つの手法を提案した.1つは,Webページが属するホストが利用しているDNSサーバーの名前を用いてスパムリンクの集合である「リンクファーム」を発見し除去する手法である.もう1つは,ページの信頼度を計る手法としてGyongiらによって提案されたTrustRankと呼ばれる手法のアイディアをHITSに適合するように工夫して,ページがスパムでない確率を評価することができるようにした「トラストスコア」である.これら2つの手法をHITSに組み込むことで,その精度を大幅に高めることができた.本研究の成果は,"Improvements of HITS Algorithm for Spam Links"という表題で,APWeb/WAIM国際会議にregular paperとして採録された.なお,本会議のregular paperの採択率は9%以下であった.また、この成果はIEICEの論文誌にも採録された.
|