2018 Fiscal Year Annual Research Report
Efficient framework for exploratory data mining
Project/Area Number |
16K00154
|
Research Institution | Osaka University |
Principal Investigator |
鬼塚 真 大阪大学, 情報科学研究科, 教授 (60726165)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | データマイニング / 探索的データ分析 / 高速化 |
Outline of Annual Research Achievements |
ビジネスデータの分析手法は,データの大規模化・多様化に伴い,従来の分析者が手動で分析を行う OLAPベースの手法から,システム側が自動で分析し分析者に有用な分析結果を推薦する探索的データ解析手法に移行している.しかし,探索的データ分析では, 多様なOLAP クエリあるいは多様な部分データを総当たりして有用性の高い分析結果を探索するため, 膨大な時間を要する問題がある. 本年度は,以下の2点に関して取り組みを行った. ・データキューブを用いて大域例外探索と局所例外探索の中間結果を共有化することで,効率的に双方の探索を同時実行するフレームワークを完成した.本フレームワークはSparkSQLを用いて実装されており,高いスケーラビリティおよび近似探索の高い精度を達成した.具体的には,データキューブを用いて統計情報を記録するとともに,データキューブと入力データの結合操作に対してhash joinを用いて高速に統計情報を差分更新する機構を実装した. ・経営科学系研究部会連合協議会が主催するデータ分析コンペティションで提供されたヘアサロンの売り上げデータおよびファッションECサイトの売り上げデータに対して,提案フレームワークを適用し有効性を検証した.その結果,地域性の観点および時間的観点それぞれにおいて例外的なふるまいをする分析データを自動的に探索できたことを確認した.
|