2010 Fiscal Year Annual Research Report
系列データマイニングと高次推論の統合による大規模テキスト時系列からの知識発見
Project/Area Number |
22500127
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 大学院・医学工学総合研究部, 教授 (30176557)
|
Co-Investigator(Kenkyū-buntansha) |
山本 泰生 山梨大学, 大学院・医学工学総合研究部, 助教 (30550793)
|
Keywords | 系列データマイニング / テキスト / 圧縮 / 仮説推論 / 学習 / 空間計算量 / オンラインアルゴリズム / 情報量 |
Research Abstract |
平成22年度は以下の研究を行った. 1.情報理論および統計学的尺度に基づく興味深い非同期・非周期パターンの高速フィルタリング・抽出法の開発:非同期パターンの抽出は,実世界のイベントの系列を抽出するためには重要である.また先行研究の.InfoMinerの情報量利得では,有用なイベント系列を大規模テキスト時系列から抽出することは困難であることが分かっている.それに代わる種々の情報量利得基準を導入し,更に統計学的評価尺度を導入し,より有効なイベント系列の抽出を試みた. 2.圧縮と帰納推論に基づく抽出系列データの構造化と学習:抽出系列データの構造化と学習、欠落情報の補完を目的として、圧縮に基づく構造化手法を考察した。また一階論理上の帰納推論と仮説推論手法に基づく欠落情報の補間手法を考察した。実装した試作システムにより検証を行った。 3.より大規模なテキスト時系列データの取り扱いを目的とした,頻出部分系列を抽出する高速なオンライン型近似アルゴリズムの開発:より大規模なテキスト時系列データを扱ってイベント系列コーパスを生成するために、従来のLossy Counting法の単純拡張手法を改良し、より空間計算量が少ない効果的な高速アルゴリズムを提案し、実験的評価を行った。
|