2011 Fiscal Year Research-status Report
時空間文書ストリーム上における文書データからの知識発見に関する研究
Project/Area Number |
23700124
|
Research Institution | Hiroshima City University |
Principal Investigator |
田村 慶一 広島市立大学, 情報科学研究科, 准教授 (80347616)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | テキストマイニング / 文書ストリーム / 情報検索 / ソーシャルメディア / 並列分散処理 |
Research Abstract |
近年,ソーシャルメディアへの関心の高まりとともに,インターネット上でリアルタイムに生成される文書データから有益な知識を発見することが重要な研究テーマのひとつとなっている.また,GPS付き携帯情報端末やスマートフォンなどの普及とともに,これらの文書データには文書データが生成された時間だけではなく,その文書データが生成された位置に関する情報(位置情報)が付与されるようになってきている.本研究では,時間と位置情報が付与された文書データから構成される文書ストリームのことを時空間文書ストリームと呼び,この時空間文書ストリームから時間と位置に関連した社会的なイベントやホットな話題を抽出することを研究目的とする. 本年度は,(1)時空間文書ストリームの数理モデル,(2)時空間文書ストリームから社会的なイベントを抽出する手法,(3)時空間文書ストリームからホットな話題を抽出する手法ついて検討した.また,検索結果として得られるイベントや話題のパターンの整理方法や,(2)と(3)を大規模時空間文書ストリームへ適用する場合に必要となるオンラインアルゴリズムの検討も行った.具体的には,時空間文書ストリームの数理モデルを検討し,時空間文書ストリームを定量的に表現可能な数理モデルを作成した.また,文書ストリーム上からのバースト検出アルゴリズムを拡張し,時空間文書ストリームに適用した新しいバースト検出アルゴリズムを開発し,プロトタイプの実装と実験評価を行った.実験評価では,位置情報を含むtwitterのデータを用い,新しいバースト検出アルゴリズムを用いることで時空間文書ストリームからイベントや話題を抽出できることを確認できた.また,オンラインアルゴリズムの検討では,高速化手法としてバースト検出アルゴリズムの並列化手法を考案し,評価を行い,その有効性を確認することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度計画していた,(1)時空間文書ストリームの数理モデル,(2)時空間文書ストリームから社会的なイベントを抽出する手法,(3)時空間文書ストリームからホットな話題を抽出する手法についての検討,プロトタイプの実装と評価とをすべて行うことができた.また,平成24年度実施予定であったオンラインアルゴリズムの検討も先行して始め,高速化手法としてバースト検出アルゴリズムの並列化手法を考案し,評価まで終えている.あわせて,研究成果として雑誌論文1件(掲載予定),国際会議1件(2012年7月発表予定)と研究会にて2件の発表を行うことができた.
|
Strategy for Future Research Activity |
平成24年度は,(1)効率的な情報検索と情報提示手法と(2)オンラインアルゴリズムと高速化の2つの研究課題に取り組む.また,システムとして全体を完成させていく.具体的には,抽出した社会的なイベントやホットな話題の検索手法や,ユーザへの情報提示の仕方を検討する.また,検索や情報提示のためのユーザインタフェースについても検討し,プロトタイプを作成する.あわせて,リアルタイムに時空間文書ストリームから社会的なイベントやホットな話題を抽出するためのオンラインアルゴリズムを検討する.特に,時空間文書ストリームに新たに到着した文書データと,すでに分析済みの時空間文書ストリームの文書データの差分から情報を抽出するインクリメンタルなアルゴリズムの開発を行う.研究成果については,ホームページなどで公開するとともに,国内外の会議や論文雑誌に積極的に投稿して発表を行う.
|
Expenditure Plans for the Next FY Research Funding |
次年度に使用する予定の研究費が生じた理由は,自動的に実験データを分析するツールを作成したため実験補助が不要になったことと,国際会議の発表予定が次年度に入ったためである.平成24年度においては,物品費に関しては情報検索手法提示とオンラインアルゴリズム開発のための機器に使用予定である.また,旅費に関しては国際会議に投稿中の論文があるため,国際会議の旅費に主に使用する予定である.さらに,その他の費用は,国際会議参加費や論文投稿料として使用する予定である.
|
Research Products
(4 results)