研究概要 |
【研究目的と意義】 本研究ではWeb上のスパムブログの状況を定量的に把握し,効率的にフィルタリングすることを目的として研究を行った。 今日, Web上には多くの有料/無料のブログホスティングサービスが存在し,我々は容易にブログサイトを開設し,情報発信を行うことができる.一方で,商品の宣伝だけを行うブログサイトや,商品サイトへの誘導を目的としたブログサイトが大量に発生し,Web検索やWebページの閲覧におけるノイズとなっている. 本研究ではこうした商品広告だけを行う価値の低いブログサイト(スパムブログ)の特徴を定量的に把握し,システムが効率的にスパムプログをフィルタリングし,利用者がWeb上でスパムブログに煩わされることなくWeb検索やWebページの閲覧を行えることを目指して研究を行った. 【研究成果】 本研究の今年度の成果として,個人適応型スパムブログフィルタリングシステムの開発を行った. このシステムは,スパムブログの許容度は利用者によって異なるという考えのもと,各利用者のスパムブログ許容度をシステムが自動的に学習し,学習した各利用者のスパムブログフィルタリングモデルを用いて,利用者に応じてスパムブログをフィルタリングするシステムである. 本システムの評価として,個人適応を行う場合と行わない場合とでのフィルタリング性能を比較したところ,個人適応を行った場合,フィルタの分類性能を示す指標であるF値で平均0,738,個人適応を行わない場合で平均0.656となり,個人適応によって性能改善が可能であることを確認した. 今後の展望として,個人適応に要する計算時間の削減と,実際に本システムをWeb上で公開し. 実際の利用者の意見を取り入れてシステムの改良を行うことを検討している.
|