研究課題/領域番号 |
25730127
|
研究種目 |
若手研究(B)
|
研究機関 | 群馬大学 |
研究代表者 |
安藤 晋 群馬大学, 理工学研究科, 助教 (70401685)
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
キーワード | データマイニング / 巨大事例集合 / センサデータストリーム / 物理行動マイニング |
研究概要 |
本課題はセンサデータストリーム等により蓄積される巨大な事例集合を扱う行動マイニング・学習手法の構築を目指し,(1)非均質性の分析と(2)分割統治・索引付けの方法に重点を置いて研究を進めている. (1)についてはデータストリームにおいて重要な時間スケールの非均質性の扱いについて研究を進めた。行動の種類によりデュレーション・レイテンシーが異なるようなケースについて複数の観測スケールと粒度・平滑化度で観測した入力からメタ特徴量を生成する手法を提案し,エージェントロボットを使用した物理的実験データを元に評価検証を行った。また、同様のケースにおいてデータストリームを入力とする分類を行う場合、従来のバッチ処理における分類問題とは異なるレイテンシーを考慮した経験リスクを提案した。さらに、そのような経験的リスクを複数のマージン最大化分類器によって最小化する手法を提案し、アルゴリズムの実装を行った。上記の分類・異常検出問題に応用した成果を米国応用数学学会(SIAM)のデータマイニング国際会議およびデータマイニング・知識発見国際ジャーナル(DAMI)において発表した. 一方,(2)については検証可能性(Verifiability)に着目して開発を進めた。検証可能性はビッグデータにおいて評価検証自体の計算規模も巨大で無視できないことから重要性が認識されている。分割・索引付に不可逆データ圧縮を利用する方法に取り組んだ.スクワッシングしたデータから学習を行った場合に全データでの近似誤差の上限を評価可能なスクワッシュ方法を定義し、近似誤差を終了条件とする最適化アルゴリズムを提案した。提案手法について評価実験をすすめ,国際会議において発表する準備を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究課題では巨大事例集合に対する探索的解析技法の構築を目指し、非均質性検証の方法論と分割統治・索引付け手法の開発を進めた。データストリームにおける多スケール・多粒度での分析によって行動の時間的な非均質性を把握し、それをふまえた異常検出・分類学習が効果的であることを示した.その成果は国際会議抄録・ジャーナルにて発表した。 分割統治・索引付けを圧縮データからの学習を行うデータスクワッシュを利用して実装した.提案手法ではバッチ学習の近似誤差を評価できるような部分標本群の類型化に基づくスクワッシュ方法を用い,誤差の上限をに持とう痔てマージン最大化分類器を学習するアルゴリズムを実装した.提案手法を検証・評価し,国際会議における成果発表を準備している.
|
今後の研究の推進方策 |
多粒度・多スケールの学習、分析の手法を行動データマイニングの応用ドメインに適用し、実用的な効果を検証する。データスクワッシュを利用した分割統治、索引付けの手法について詳細な評価実験を行い、成果を整理して国際会議等において発表する。さらに応用ドメインでの実用的な効果を検証する.
|