2012 Fiscal Year Annual Research Report
系列データマイニングと高次推論の統合による大規模テキスト時系列からの知識発見
Project/Area Number |
22500127
|
Research Institution | University of Yamanashi |
Principal Investigator |
岩沼 宏治 山梨大学, 医学工学総合研究部, 教授 (30176557)
|
Co-Investigator(Kenkyū-buntansha) |
山本 泰生 山梨大学, 医学工学総合研究部, 助教 (30550793)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | データマイニング / オンライン型アルゴリズム / 負の相関ルール / 潜在的因子発見 / 頻出アイテム集合 / 系列データ |
Research Abstract |
本研究ではまず,負の相関ルールマイニングに関して完全かつ効率的なアルゴリズムを新しく開発した。大規模データ中の隠れ因子・事象の間の共起規則,即ち潜在的相関ルールのマイニングは極めて重要な問題であるが,これまで殆ど研究されておらず,僅かに負の相関ルールマイニングの研究が幾つかある程度である。負の相関ルールのマイニングでは,非頻出アイテム集合を取り扱う必要があるため,計算量が膨大で効率化が難しい。2004 年にはWu らが,正負の相関ルールを同時並行的に生成する手法を提案している。しかし,この手法も相関ルールの生成に関して不完全であることが明らかになっており,これまで完全かつ効果的な負の相関ルールの生成アルゴリズムは知られていなかった。 これに対して,我々は新たに,負の相関ルールの生成に関して完全な手法を提案した。提案手法は既存手法とは異なり,負の相関ルールの台集合(非頻出アイテム集合の一種)は生成せずに,頻出集合だけを使って負の相関ルールを生成する.そのため基本的に非常に効率的なアルゴリズムとなっている。更に我々は接尾木上の極小性チェックに基づく高速化手法を開発し,実験的評価により100倍から1000倍の高速化性能を確認している。 我々が提案した負の相関アルゴリズムは「頻出集合だけを使って負の相関ルールを抽出する」ことに特徴があるが,これは本質的にオンライン型の高速実行に適した性質である。このため,データストリーム上の頻出アイテム集合を抽出するオンライン型の高速アルゴリズムも開発した.我々が提案したオンライン型アルゴリズムでは誤差保証を与えることができるため,潜在的相関ルールマイニングに一定の誤差保証を与えることが可能となる。本手法により,巨大なテキスト時系列からも,潜在因子まで考慮した高次のイベント系列ーパスを実用時間で生成することが可能となったと考えられる。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|