研究概要 |
ブログ,ニュース,スパムのキーワード時系列データにおいて,自己相関にもとづき,各情報源の周期的話題の分析を行った.そのため,独自で継続的に収集しているブログとニュースのデータを用いた.また,独自に開発したスパム分離手法を開発し,収集したブログからスパムの分離を行った.これら時系列データの違いを調べるために,自己相関にもとづくキーワードの文書頻度の基本周期系列抽出アルゴリズムを開発し,システム構築を行った.このシステムを用いて周期の分布や,7日周期および365日周期のキーワードの抽出を行った.その結果,ブログは毎週のテレビ番組や週末の趣味や年中行事,ニュースは政府や経済,スパムはメルマガやアフィリエイトの話題が多いことが分かった.
|