2017 年度実施状況報告書

有用な仮説の自動探索・検証の高速化に関する研究

研究課題

研究課題/領域番号	16K00154
研究機関	大阪大学
研究代表者	鬼塚真大阪大学, 情報科学研究科, 教授 (60726165)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	データマイニング / ビッグデータ / 高速化
研究実績の概要	ビジネスデータの分析手法は，データの大規模化・多様化に伴い，従来の分析者が手動で分析を行う OLAPベースの手法から，システム側が自動で分析し分析者に有用な分析結果を推薦する探索的データ解析手法に移行している．しかし，探索的データ分析では, 多様なOLAP クエリあるいは多様な部分データを総当たりして有用性の高い分析結果を探索するため, 膨大な時間を要する問題がある．本年度は，高速で高度な探索的データ分析を実現するため以下の2つの課題に取り組んだ．・膨大なクエリを探索する処理を高速化する複数クエリ共有化の技術と，有用性の高い結果を効率的に探索する top-k 検索の技術とを融合した探索的データ分析フレームワークを Spark 上に開発した．本フレームワークでは，データをストリーム処理して複数クエリを同時に処理するとともに, 中心極限定理に基づいて有用性の低いデータキューブを推定して枝刈りすることを実現する．評価実験により, 大域例外データを探索する場合, 2倍の高速化が可能であることを確認した．・平均からの乖離の大きさにより定義される有用性判定方法を一般化し，局所的なデータの傾向からの乖離に基づく探索的データ分析手法を考案し，その高速アルゴリズムを開発した．提案手法では，信頼区間推定技術に基づいて各部分データの例外度の上限・下限を推定し，例外度上位 n 件に入り得ない部分データを探索処理の途中で足切りすることにより，不要なデータ読み込み量を削減することで効率的に局所例外部分データを特定する．評価実験の結果，提案手法は，既存の局所例外部分データ探索手法の探索時間を最大 84% 削減することに成功し，更にデータサイズに対するスケーラビリティを有していることを確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究実績の概要に記載した2点に関しては，昨年度初めの計画通り遂行できている．また，局所的なデータの傾向からの乖離に基づく探索的データ分析手法に関しては，データベース学会誌に採択され，探索的データ分析フレームワークに関しては査読付き国内会議である xSIG に採択されている．更に，信学会が主催するフォーラムであるDEIMにおいて2件発表し，共に学生プレゼンテーション賞を受賞した．
今後の研究の推進方策	局所的なデータの傾向からの乖離に基づく探索的データ分析手法を含めて，多様な分析手法を探索的データ分析フレームワーク上に実装して，多様な実データを対象として性能評価を行う．その結果として，探索的データ分析フレームワークを git で公開するとともに，難関国際会議での採択を目指す．
次年度使用額が生じた理由	国際会議の出張参加が来年度に伸びたため．使用計画：国際会議出張2名（60万円）

研究成果
(3件)

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (2件)

[雑誌論文] 局所例外部分データの自動探索2018
- 著者名/発表者名
  小笠原麻斗，水野陽平，佐々木勇和，鬼塚真
- 雑誌名
  
  日本データベース学会論文
  
  巻: 16-J ページ: 1-8
- 査読あり / オープンアクセス
[学会発表] 探索的データ解析におけるエンジンの効率化2018
- 著者名/発表者名
  松本拓海，山室健，小笠原麻斗，佐々木勇和，鬼塚真
- 学会等名
  データ工学と情報マネジメントに関するフォーラム
[学会発表] 統計的信頼区間を用いた局所例外部分データの効率的探索アルゴリズム2018
- 著者名/発表者名
  小笠原麻斗，松本拓海，佐々木勇和，鬼塚真
- 学会等名
  データ工学と情報マネジメントに関するフォーラム