研究実績の概要 |
ビジネスデータの分析手法は,データの大規模化・多様化に伴い,従来の分析者が手動で分析を行う OLAPベースの手法から,システム側が自動で分析し分析者に有用な分析結果を推薦する探索的データ解析手法に移行している.しかし,探索的データ分析では, 多様なOLAP クエリあるいは多様な部分データを総当たりして有用性の高い分析結果を探索するため, 膨大な時間を要する問題がある. 本年度は,高速で高度な探索的データ分析を実現するため以下の2つの課題に取り組んだ. ・膨大なクエリを探索する処理を高速化する複数クエリ共有化の技術と,有用性の高い結果を効率的に探索する top-k 検索の技術とを融合した探索的データ分析フレームワークを Spark 上に開発した.本フレームワークでは,データをストリーム処理して複数クエリを同時に処理するとともに, 中心極限定理に基づいて有用性の低いデータキューブを推定して枝刈りすることを実現する.評価実験により, 大域例外データを探索する場合, 2倍の高速化が可能であることを確認した. ・平均からの乖離の大きさにより定義される有用性判定方法を一般化し,局所的なデータの傾向からの乖離に基づく探索的データ分析手法を考案し,その高速アルゴリズムを開発した.提案手法では,信頼区間推定技術に基づいて各部分データの例外度の上限・下限を推定し,例外度上位 n 件に入り得ない部分データを探索処理の途中で足切りすることにより,不要なデータ読み込み量を削減することで効率的に局所例外部分データを特定する.評価実験の結果,提案手法は,既存の局所例外部分データ探索手法の探索時間を最大 84% 削減することに成功し,更にデータサイズに対するスケーラビリティを有していることを確認した.
|