2012 Fiscal Year Annual Research Report
時空間文書ストリーム上における文書データからの知識発見に関する研究
Project/Area Number |
23700124
|
Research Institution | Hiroshima City University |
Principal Investigator |
田村 慶一 広島市立大学, 情報科学研究科, 准教授 (80347616)
|
Keywords | テキストマイニング / 文書ストリーム / 情報検索 / ソーシャルメディア / 並列分散処理 |
Research Abstract |
近年,ソーシャルメディアへの関心の高まりとともに,インターネット上でリアルタイムに生成される文書データから有益な知識を発見することが重要な研究テーマのひとつとなっている.また,GPS付き携帯情報端末やスマートフォンなどの普及とともに,これらの文書データには文書データが生成された時間だけではなく,その文書データが生成された位置に関する情報(位置情報)が付与されるようになってきている.本研究では,時間と位置情報が付与された文書データから構成される文書ストリームのことを時空間文書ストリームと呼び,この時空間文書ストリームから時間と位置に関連した社会的なイベントやホットな話題を抽出することを研究目的とする. 研究期間内に,(A)時空間文書ストリームの数理モデルの作成,(B)時空間文書ストリームから社会的なイベントを抽出する手法,(C)時空間文書ストリームからホットな話題を抽出する手法,(D)効率的な情報検索と情報提示手法,(E)オンラインアルゴリズムと高速化に取り組んだ.また,数理モデルや手法を検討するだけはなく,実データによる評価を行い,数理モデルや提案手法の優位性を明らかにした. 具体的には,時空間文書ストリームの数理モデル化を行い,時空間文書ストリームから社会的なイベントやホットな話題を抽出する手法として,ユーザの位置とを考慮したバースト検出アルゴリズムを考案した.また,空間クラスタリング手法であるDBSCANを拡張した(ε,τ)空間密度に基づくクラスタリング手法を開発し,ホットな話題が現れている地域を抽出することが可能となった.さらに,クラスタリングの精度を向上させるために新しい進化計算手法の検討を行った.高速化手法としては,大規模な時空間文書ストリームを対象としてバースト検出アルゴリズムの並列アルゴリズムを実装し,性能評価を行い,その有効性を確認することができた.
|
Research Products
(11 results)