2016 Fiscal Year Research-status Report
ビッグデータ解析環境への効率的なデータステージングの研究
Project/Area Number |
16K21675
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
谷村 勇輔 国立研究開発法人産業技術総合研究所, 人工知能研究センター, 主任研究員 (80415710)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | データストレージ / ビッグデータ解析 / データステージング / 資源管理 / クラウド |
Outline of Annual Research Achievements |
本年度は,ビッグデータ処理基盤における解析処理層(主計算インフラ)とバックエンド層(主ストレージインフラ)において,解析処理層で用いられるデータ構造をできる限り保持したままデータ・ステージングを行う仕組みの開発と評価に取り組んだ.プロトタイプとして,解析処理層にApache Spark,メモリや高速なディスクで構成する中間層(ステージング層)にAlluxio,容量単価の優れたディスクで構成するバックエンド層にHadoop Distributed File Systemを用いた.従来,これらの3層は1つの計算ノード群に重ねて用意されるのが一般的であるが,本研究では上位2層を計算ノード群,下位1層をストレージノード群に用意する設計としている.その上で,Sparkで扱う入出力および中間データについて,階層間でデータ・ステージングを行う仕組みを用意した.そして,まず,SparkアプリケーションがAlluxioに対してReadやWriteを行う操作とAlluxioがバックエンド層に対してReadやWriteを行う操作が同時に行われた際のぞれぞれの性能への影響を評価した.その結果,I/O操作の同時実行により,最大で15%の性能低下が見られ,データ・ステージングを適切にスケジューリングすることの有効性を確認できた.次に,Sparkで利用されるデータフォーマット,Alluxioおよび類似機能を提供する分散メモリストアのデータ構造,バックエンド層のストレージ内のデータ構造について調査し,ステージング対象のデータに対して解析前・解析後の処理を適用することを目標に,データ構造の変換を最小限に抑える手法の検討を進めた.また,Ceph RADOSを対象に,バックエンド層で解析前・解析後の処理を行う仕組みの実装方法について検討を進めた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
プロトタイプの実装において中間層(ステージング層)にAlluxioを利用することとし,データ・ステージングにおいてI/Oが競合する場合の性能評価までは予定より早く進めることができた.しかしその後,Spark Version 2.0以降において,Alluxioに対するSparkの中間データ(RDD)の保存の仕組みが変更になったことが判明し,Alluxioを用いることの妥当性を改めて検討する必要が生じた.そして,Gigaspace社の製品等,Alluxioと同等の機能を提供する分散メモリストアについて,Sparkとのインタフェース,利用可能なデータ構造や内部的なデータ構造を調査するのに時間を費やした.それに加えて,年度後半からは他の研究課題遂行のため,本研究課題に費やすことのできる時間が相対的に減少し,先に述べた調査と検討は行えたものの,プロトタイプの改善を進めることができなかった.
|
Strategy for Future Research Activity |
次年度は,第一に本研究課題に費やすことのできる時間を確保して,データ構造の変換を最小限に抑制する手法の実装を迅速に進められるように努めたい.そのために,本研究課題のみならず,他の研究課題についても細かく計画を立てて効率的に研究を進めることを心掛ける.第二にデータ・ステージングのスケジューリングの実装においては,I/O監視などについて既存のフレームワークを活用し,提案する手法の実装や評価により多くの時間を費やせるように努めたい.そして,年度内の発表に限らず,最終的に得られた成果を論文として発表し,成果の普及や社会への還元につながるように活動したい.
|
Causes of Carryover |
研究の進捗に遅れがあり,評価実験の準備補助として予定していた人件費を使用しなかった.一方,Sparkやストレージの最新技術や研究動向の調査のため,当初の予定より旅費への支出が増えた.
|
Expenditure Plan for Carryover Budget |
未使用額は成果発表のための学会参加費や旅費,あるいは論文作成のための英文校閲等の経費に充当する計画である.
|
Research Products
(1 results)