本年度は,これまで開発してきた表構造の異なる複数の時区間履歴データからの時系列分析多次元データベースの実用性の検証を行った.対象とした分析は,人間の動きの解析,人間関係の時間的変化の解析,文書の単語間前後関係の解析である. 1. 人の動きは,位置と時刻の組の系列として表すことができる.人間の動きの解析を行うためにスマートフォンのGPSを利用し,利用者の位置を特定し,それをサーバーに収集,蓄積するシステムを開発した.さらに,そのデータを解析し,混雑位置をヒートマップにより可視化し,リアルタイムに配信するシステムを開発した.今後,蓄積された人の移動情報を多次元分析することで,人の動きの傾向を抽出する予定である. 2. 人間関係は,人を頂点,人間関係を辺とするグラフで表すことができる.その人間関係は常に一定ではなく,時間とともに変化する.このため人間関係の変化はグラフの系列として表すことができる.人間関係の変化をグラフの系列として表し,そこからコミュニティ(クラスタ)の変化を抽出するアルゴリズムを開発した.本アルゴリズムは,外れ値に頑健であり,頂点数(人の数)と時刻ステップの積の3乗のアルゴリズムで動作するため効率がよい. 3. 文書は,単語とその線形位置の組の系列として表すことができる.また,各単語は別の単語に係るため,単純な系列としてではなくグラフとして表すことができる.本年度は,日本語の文書の係り受け解析において,動的オラクルの概念を導入し,その係り受け精度を向上させた.今後,係り受け関係が付与された文書に対して,単語間の係り受けを指定した多次元解析をすることで,現時点でのテキストマイニングシステムでは困難な分析システムの構築が可能となる.
|