悪質スパムページを自動除去可能な高品位ウェブ情報検索手法の構築
Project/Area Number |
18700078
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Media informatics/Database
|
Research Institution | Kyoto University (2007) Tokyo Denki University (2006) |
Principal Investigator |
浅野 泰仁 Kyoto University, 情報学研究科, GCOE助教 (20361157)
|
Project Period (FY) |
2006 – 2007
|
Project Status |
Completed (Fiscal Year 2007)
|
Budget Amount *help |
¥2,700,000 (Direct Cost: ¥2,700,000)
Fiscal Year 2007: ¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2006: ¥1,500,000 (Direct Cost: ¥1,500,000)
|
Keywords | Web / スパム / 情報検索 / web |
Research Abstract |
本研究では,Web上のコミュニティ(関連するページの集合)を求める情報検索手法として代表的なFlakeらの最小カット法の問題点を調べることによって,スパムリンクに関する様々な知見を得た.これをもとに,スパムリンクを自動的に除去することで,悪質なスパムページが情報検索の結果から除かれるような高精度の手法を提案した.具体的には,Webページの重要度を計算する著名なアルゴリズムであるHITSを改良した.HITSアルゴリズムは,Kleinbergによって提案された当時は高い精度を持っていたが,現在のWebにおいてはスパムページの増加により精度が低くなっていた.本研究では,スパムリンクを自動的に除去してHITSの精度を高めるために,2つの手法を提案した.1つは,Webページが属するホストが利用しているDNSサーバーの名前を用いてスパムリンクの集合である「リンクファーム」を発見し除去する手法である.もう1つは,ページの信頼度を計る手法としてGyongiらによって提案されたTrustRankと呼ばれる手法のアイディアをHITSに適合するように工夫して,ページがスパムでない確率を評価することができるようにした「トラストスコア」である.これら2つの手法をHITSに組み込むことで,その精度を大幅に高めることができた.本研究の成果は,"Improvements of HITS Algorithm for Spam Links"という表題で,APWeb/WAIM国際会議にregular paperとして採録された.なお,本会議のregular paperの採択率は9%以下であった.また、この成果はIEICEの論文誌にも採録された.
|
Report
(2 results)
Research Products
(3 results)