2017 Fiscal Year Research-status Report
Project/Area Number |
16K00154
|
Research Institution | Osaka University |
Principal Investigator |
鬼塚 真 大阪大学, 情報科学研究科, 教授 (60726165)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | データマイニング / ビッグデータ / 高速化 |
Outline of Annual Research Achievements |
ビジネスデータの分析手法は,データの大規模化・多様化に伴い,従来の分析者が手動で分析を行う OLAPベースの手法から,システム側が自動で分析し分析者に有用な分析結果を推薦する探索的データ解析手法に移行している.しかし,探索的データ分析では, 多様なOLAP クエリあるいは多様な部分データを総当たりして有用性の高い分析結果を探索するため, 膨大な時間を要する問題がある. 本年度は,高速で高度な探索的データ分析を実現するため以下の2つの課題に取り組んだ. ・膨大なクエリを探索する処理を高速化する複数クエリ共有化の技術と,有用性の高い結果を効率的に探索する top-k 検索の技術とを融合した探索的データ分析フレームワークを Spark 上に開発した.本フレームワークでは,データをストリーム処理して複数クエリを同時に処理するとともに, 中心極限定理に基づいて有用性の低いデータキューブを推定して枝刈りすることを実現する.評価実験により, 大域例外データを探索する場合, 2倍の高速化が可能であることを確認した. ・平均からの乖離の大きさにより定義される有用性判定方法を一般化し,局所的なデータの傾向からの乖離に基づく探索的データ分析手法を考案し,その高速アルゴリズムを開発した.提案手法では,信頼区間推定技術に基づいて各部分データの例外度の上限・下限を推定し,例外度上位 n 件に入り得ない部分データを探索処理の途中で足切りすることにより,不要なデータ読み込み量を削減することで効率的に局所例外部分データを特定する.評価実験の結果,提案手法は,既存の局所例外部分データ探索手法の探索時間を最大 84% 削減することに成功し,更にデータサイズに対するスケーラビリティを有していることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要に記載した2点に関しては,昨年度初めの計画通り遂行できている. また,局所的なデータの傾向からの乖離に基づく探索的データ分析手法に関しては,データベース学会誌に採択され,探索的データ分析フレームワークに関しては査読付き国内会議である xSIG に採択されている.更に,信学会が主催するフォーラムであるDEIMにおいて2件発表し,共に学生プレゼンテーション賞を受賞した.
|
Strategy for Future Research Activity |
局所的なデータの傾向からの乖離に基づく探索的データ分析手法を含めて,多様な分析手法を探索的データ分析フレームワーク上に実装して,多様な実データを対象として性能評価を行う.その結果として,探索的データ分析フレームワークを git で公開するとともに,難関国際会議での採択を目指す.
|
Causes of Carryover |
国際会議の出張参加が来年度に伸びたため.
使用計画:国際会議出張2名(60万円)
|