2017 Fiscal Year Research-status Report
オンライン近似圧縮に基づく次世代ストリームデータマイニング法の開発
Project/Area Number |
17K00301
|
Research Institution | University of Yamanashi |
Principal Investigator |
山本 泰生 山梨大学, 大学院総合研究部, 助教 (30550793)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 頻出系列パターンマイニング / 系列予測 / オンラインアルゴリズム / 非可逆圧縮 / ストリームデータ |
Outline of Annual Research Achievements |
当初の研究計画に基づき以下の研究課題に取り組んだ: 課題1: オンライン近似圧縮法の深化 A. アイテム集合系列マイニングの効率化: 索引データ構造及び枝刈り法を導入しマイニング法のさらなる効率化を図った (人工知能学会FPAI研究会にて発表).B. ストリームデータの非可逆圧縮表現のオンライン抽出法の性能評価: Quantileサマリ計算で用いられている drop & merge 操作を一般化し、半順序集合のイベントストリーム系列の非可逆圧縮表現を求めるオンラインアルゴリズムを検討し,その実装評価を行った.結果として,従来の低頻度イベント削除法に基づく手法のみでは十分な圧縮効果を得られていなかった稠密なデータセットにおいても,25%程度までメモリ使用量を削減できることを確認した. 課題2: 頻出パターンの基づくイベント発生予測 イベント発生予測器を実際に作成し,Yahoo! Research が提供する Hadoop クラスタのシステムログデータを用いて性能評価を行った.連続して発生するイベント系列の予測法としてVariable-order Markov Model (VMM) がよく知られている.このイベント予測法の属する各種の既存法と比較したところ,より高い予測性能を持つことを確認した.この結果を解析したところ,頻出パターンに基づく提案法は,連続ではなく飛び飛びに出現するイベント系列の予測により効果的であることがわかった.今後,引き続き実験を行い検証を進める予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画の通り課題を推進し,興味深い結果が生まれている.概ね良好に推移していると思われる.特に課題1.A においては既存のオンライン圧縮法の性能を改善する手法を提案しており,また課題2でも,実データにおいて提案する予測器の有用性を部分的ではあるが示すことができた.
|
Strategy for Future Research Activity |
課題1: オンライン近似圧縮法の深化 A. アイテム集合系列マイニングの効率化: アイテム集合系列全体は擬順序集合であり,この課題において取り組んでいる計算問題は,擬順序集合上のイベントストリームの非可逆圧縮表現を抽出する問題と位置付けることができる.来年度はこれまでに得られた知見を再構築することで,この一般化された計算問題におけるオンラインアルゴリズムを提案する.またサンプリングによる確率的アプローチの検討を進める.B. ストリームデータの非可逆圧縮表現のオンライン抽出法の性能評価: 半順序集合上のイベントストリームのオンライン型非可逆圧縮法に関するこれまでの研究成果をまとめ,外部発表する. 課題2: 頻出パターンの基づくイベント発生予測 現在,Hadoop クラスタのシステムログデータを用いて,飛び飛びのイベント系列の予測に対する有用性を確認している.来年度は,他のデータセット,例えばVMMモデルのベンチマークセット等,を用いて提案法の予測性能を検証し,有用性の高いアプリケーションを明らかにする.
|
Causes of Carryover |
当初検討していた物品 (ノートPC) を別予算にて購入することとなった.また国際会議への論文投稿を次年度に変更した.以上の理由より当該使用額が生じた.この金額は来年度の国際会議への出張旅費等に利用する予定である.
|