研究概要 |
ソーシャルメティアとマスメティアの相互影響分析システムの構築のために, テータストレージのハードウェアを購入し、ブログとニュースの収集蓄積システムの整備を行った(研究課題1「ブログ、オンラインニュースの収集蓄積システムの開発」). このシステムにもとづき, 研究課題3「スパムブロ分離システムの開発」として, 更新ブロクのデータからスパムブログを分離する手法を開発した(学会発表 : 共起クラスターシードと連鎖的抽出にもとづくスパムブログのフィルが問題となっている. スパムブログは, 流行のキーワードを含む他のブログや, 最新ニュース記事などを断片的にコピーした記事を用いるものや, スパムブログの露出機会を増大させるために, マルチポストされる記事が多く存在する. そのため, ブログとキーワードの二部グラフにおいて, スパムブログとスパムワードは, 大規模なスパムクラスターを形成する特徽がある. 本研究では, このクラスターをスパムの不偏的特徴としてスパムシード利用し, 連鎖的にスパムブログとスパムワードを抽出する. 約6か月間のデータにもとつく予備実験と, 1日のデータを用いた詳細な調査により, 最高95%の精度でスパム分離ができることが分かった. また, これら収集システムとスパム分離システムにもとづき, 研究課題4「ソーシャルメディアとマスメディアの相互影響分析システムの開発」のための, スパムブログを除いたソーシャルメデイアとマスメデイアの影響分析を行い, キーワード量観点から, 通常のブログ, スパムブログにおける影響の違いを示した(学会発表 : スパムブログを除いたソーシャルメディアにおけるマスメディアの影響分析).
|