本研究では,バックエンドの安価で巨大なストレージから高速なディスクを持つビッグデータ解析環境への効率的なデータ・ステージングの実現を目指し,ビッグデータ解析処理層(主計算インフラ)とバックエンド層(主ストレージインフラ)において,解析処理層で用いられるデータ構造をできる限り保持したままデータ・ステージングを行うとともに,主ストレージインフラ側での解析前・解析後処理によるステージングの効率化,同時ステージングにおける性能干渉を防ぐためのスケジューリングに取り組んだ.解析処理層にApache Spark,メモリや高速なディスクで構成する中間層(ステージング層)にAlluxio,容量単価の優れたディスクで構成するバックエンド層にHadoop Distributed File SystemあるいはCeph RADOSを想定し,性能評価や提案手法のプロトタイプ実装を行った.なお,これらの3層は従来,1つの計算ノード群に重ねて用意されるのが一般的であるが,本研究では最終的に上位1層を計算ノード群,下位2層をストレージノード群に用意する設計とした.Sparkのデータ入出力の基本性能評価と高速化,Alluxioを中間層に用いた場合のI/O性能比較,Alluxio内部でのデータ処理機構の実装と主ストレージインフラへのデータ処理のオフロードに関する評価,同時ステージングにおける性能干渉の調査と干渉の軽減策に関する評価などを行い,高速なビッグデータ解析環境の多目的の運用や,従来的にデータ保存管理に優れたストレージシステムとの相補的な利用に不可欠な要素技術を開発した.
|