2012 Fiscal Year Annual Research Report
Hadoopに対し飛躍的性能向上を達成する大規模データ解析処理系の研究
Project/Area Number |
12J07965
|
Research Institution | The University of Tokyo |
Principal Investigator |
山田 浩之 東京大学, 大学院・情報理工学系研究科, 特別研究員(DC2)
|
Keywords | 非同期I/O / カラムストア / MapReduce / データ処理 / 問合せ最適化 / C-Store / Hadoop |
Research Abstract |
1.高多重非同期1/0を適用したカラムストアエンジンの開発 カラム間結合等のカラムストアエンジンにおける性能低下の原因となりうるデータ処理に対する非同期1/0化方式を検討し、オープンソース実装であるC-Storeをベースとして、当該提案方式を適用したカラムストエンジンのプロトタイプの設計と実装を行った。6ディスクを有する小規模サーバ環境において、データベースの業界標準ベンチマークであるTPC-H(データセットは100GB程度に調整)を用いて性能評価実験を行い、実験を行ったところ、提案カラムストアエンジンによって従前のC-Storeと比較して最大15倍程度の性能向上が達成可能であることを確認し、当該提案方式ならびに当該提案方式を適用したカラムストアエンジンの潜在的な有効性を明らかにすることに成功した。加えて、当該提案方式を考慮した問合せ最適化機構ならびに実行時の計算資源の最適調整機構の検討を行った。 2.高多重非同期1/0を適用したMapReduce処理エンジンの開発 並列データ処理の実行時に索引アクセス機構等を利用し入出力を非同期化する非同期1/0化方式を検討し、 MapReduce処理エンジンのオープンソース実装であるHadoopをベースとして、当該提案方式を適用したMapReduce処理エンジンのプロトタイプの設計と実装を行った。さらに、当該提案方式を考慮したのコストベースの問合せ最適化機構を設計し、HadoopのSQL処理系であるHiveをベースに当該問合せ最適化機構の実装を行った。所属研究室の支援により1ノードあたり24ドライブを有する20ノードからなる中規模クラスタを構築し、約20TBのデータに対してTPC-HならびにMapReduce関連論文で広く用いられる解析タスクを用いて実験を行い、実験の結果、従来のHadoopならびにHadoopに索引やパーティショニング等を適用したHadoop処理系に対して、データの一部の空間を対象とするような解析ジョブ(選択率0.01%)において最大100倍以上の高速化を実現した。また、ノード数を変化させた場合の性能スケーラビリティを検証した結果、提案MapReduce処理エンジンは他のHadoop処理系と比較して高いスケーラビリティを有することを確認した。これらの実験から、当該提案方式ならびに当該提案方式を適用したMapReduce処理エンジンの潜在的な有効性を明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、両エンジンの非同期1/0化の設計ならびに実装に関して重点的に研究を進めて来ており、計画は当初の予定通りに進展したため。
|
Strategy for Future Research Activity |
今後は、より大規模な環境での実験と上記の当該エンジンにおける非同期1/0化方式の高度化を進めるとともに、両エンジンに関する問合せ最適化機構ならびに計算資源の最適調整機構の検討をさらに進める予定である。また、これらの研究成果を論文に纏める予定である。
|
Research Products
(1 results)