2008 Fiscal Year Annual Research Report
スパムブログ空間の定量分析とフィルタリング手法の開発
Project/Area Number |
20700127
|
Research Institution | The University of Tokyo |
Principal Investigator |
福原 知宏 The University of Tokyo, 人工物工学研究センター, 特任助教 (50436581)
|
Keywords | スパムプログ(Splog) / Splogデータセット / Splogフィルタリング |
Research Abstract |
本研究ではSplog空間の定量的分析による効率的なSplogフィルタの設計に向けて研究を行っている. 本研究を推進する上で, Web閲覧者がSplogと見なすページ(Splog判定データ)が必要である. このSplog判定データセットの作成に当たり, (a)個々のWeb閲覧者の判定情報を含むこと, また, (b)特定の言語に依存しないSplogフィルタの開発を目指す観点から, 本年度は(1)日本語Splog判定データセット,(2)多言語Splog判定データセットを作成した. (1) では, 個々のWeb閲覧者によるSplog判定傾向を把握するため, 日本語Splogサイトを対象として判定者の目視によるデータセット作成を行った.日本語を理解する判定者50名を募り, 筆者らが収集したSplogサイト50件に対して, Splogか非Splogか, また, 有益か否かの判定情報を4段階で付与した. (2) では特定言語に依存しないSplogフィルタの開発を目標として複数言語でのSplog判定データの収集を行った. ここでは日本語, 英語, 中国語(簡体字, 繁体字を含む), 韓国語の4言語においてSplogの出現しそうなトピックを決め, そのトピックを表すキーワードを各言語に翻訳し, 各言語のキーワードで検索した結果得られたプログサイトに対してSplog/非Splog判定を行った. 各言語, 200サイトの判定を行った. 平成21年度は引き続きデータセットの分析とSplogフィルタの試作を行い, 雑誌論文等に成果をまとめる作業を行う.
|
Research Products
(7 results)