2011 Fiscal Year Research-status Report
ヘテロ型クラスタ計算機上でのペタスケール大規模データ処理
Project/Area Number |
23700031
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
佐藤 仁 東京工業大学, 学術国際情報センター, 特任助教 (00550633)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | ハイパフォーマンスコンピューティング / 大規模データ処理 / アクセラレータ / MapReduce / GPGPU |
Research Abstract |
本年度は、汎用CPUコアとGPUアクセラレータが混在したヘテロ型クラスタ計算機を対象にしたMapReduceシステムの基本的な設計と実装を行った。まず、実アプリケーションでのGPU上のMapReduce処理の性能特性を明らかにするために、1台の計算ノード上のGPUを対象にした既存のMapReduce実装であるMarsに対して、Generalized Iterative Matrix-Vector multiplication(GIM-V)モデルによるグラフ処理、具体的には、PageRank(PR), Random Walk with Restart(RWR), Connected Components(CC)を実装し、HadoopによるGIM-V処理実装であるPEGASUSとの比較を行った。その結果、1反復あたり、PRで2.17~9.53倍、RWRで2.18~5.47倍、CCで2.41~8.46倍の高速化を確認し、GPUによるMapReduce処理の有効性を示した。更に、Marsに対して複数ノード上のGPUを使用したMapReduceの実行を可能にする拡張を行った。この拡張したMapReduceに対して、GIM-VモデルによるPageRankを実装し、TSUBAME2.0スーパーコンピュータ上の64ノード、64GPUを使用して実行したところ、Map処理が7.17倍の高速化を示すことを確認した。一方で、Sort, Reduce処理では高速化を示さず、性能改善の余地があることを確認した。これは、GPU毎の負荷やデータ転送量が不均衡になることが要因であることを確認しており、更に大規模なヘテロ型クラスタ計算機上で、効率的なMapReduce処理を実現するためには、GPU毎のタスクスケジューリング、データ割り当てなどの動的な自動チューニングが必要であるという指針を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
GPUアクセラレータを用いたMapReduce処理を、実アプリケーションであるグラフ処理に適用し、TSUBAME2.0スーパーコンピュータ上の64台、64GPU以上で実行することで、大規模ヘテロ型クラスタ計算機上での複数GPUを用いたMapReudce処理のスケーラビリティとボトルネックを定量的に示すことができ、更なる大規模環境への適用に向けての指針を得た。一方で、MapReudce処理中のタスク、I/Oのモニタリングについては現状では限定的にしかできていない点が課題であり、これらの実行時の精緻なプロファイル情報の取得が今後の課題である。また、ソフトウェアの公開の点に関しては、現時点では本年度の研究成果に関する論文が国際学会に未採択であるため、未達成であり、今後の課題となっている。
|
Strategy for Future Research Activity |
次年度は、まず、進捗がおくれているMapReudceのタスクのモニタリングに注力しつつ、更に大規模なデータ(数TB~数十TB)に関するI/Oを効率的に行う手法の開発が目標である。一方、現在、実装で用いているGPU上のMapReduce処理系は、最新のFermi, Keplar世代のNVIDIA GPUに対応しておらず、GPUの性能を活かしきれていないことが問題になっており、この点の改善も行う。
|
Expenditure Plans for the Next FY Research Funding |
平成23年度の研究費に残額が生じたが、これは事務処理上の伝票の遅着によるものであり、研究の全体計画には影響はない。平成24年度は、基本的には、現在実装を進めているGPU上でのMapReduce処理系をTSUBAME2.0スーパーコンピュータ上で大規模に実行するための費用にあてる。その他には、各種情報収集、対外発表、実験等に必要となる設備備品に当てる方針である。
|