研究概要 |
話題共有コミュニティ抽出システムの開発ために,Wikipediaにもとづくキーワードの表記ゆれおよび同義語抽出手法の開発を行った.ソーシギルメディアにおける話題を表すキーワードには多様な表記ゆれ,同義語が存在するため,話題の特定が難しい.そのため,Wikipediaにおけるエイリアスもとづき,キーワードの表記ゆれ情報の抽出を行うとともに,人手で編集された表記統合辞書との比較を行った.その結果,Wikipediaと表記統合辞書は補完的であり,Wikipediaから抽出されたこの用語間関係は,キーワードの多様性の高いブログのデータにおいて,流行や意見を抽出するための,キーワードデータベースとして利用できる可能性があるごとが分がった.また,スパムプログ分離システムの開発として,更新ブログのデータからスパムプログを分離する手法を開発した.約6か月間のデータにもとづく予備実験と,1日のデータを用いた詳細な調査により,最高95%の精度でスパム分離ができることが分かった.さらに,ソーシャルメディアとマスメティアの相互影響分析システムの開発のため,更新テータ収集システムとスパム分離システムにもとづき,プログ,ニュース,スパムのキーワード時系列データにおける周期的話題の分析を行った.これら時系列データの違いを調べるために,自己相関にもとづくキーワードの文書頻度の基本周期系列抽出アルゴリズムを開発した.このアルゴリズムを用いて周期の分布や,7日周期および365日周期のキーワードの抽出を行った.その結果,ブログは毎週のテレビ番組や週末の趣味や年中行事,ニュースは政府や経済,スパムはメルマガやアフィリエイトの話題が多いことが分かった.これらの手法にもとづく分析システムは,周期的な話題の自動検出を行うため,定期的に行われる趣味や行事に関連した商品,サービスの販売促進に活用できる.
|