2010 Fiscal Year Annual Research Report
アクセラレータスーパーコンピュータ向けスケーラブルかつ高速なチェックポイント技術
Project/Area Number |
22700047
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
丸山 直也 東京工業大学, 学術国際情報センター, 助教 (60532801)
|
Keywords | 高性能計算 / 耐故障性 / スーパーコンピュータ / GPGPU |
Research Abstract |
平成22年度は符号理論を応用することで計算ノードのローカルストレージを活用したチェックポイント手法を提案、開発し、実際に100並列程度の小規模な環境においてその有効性を確認した。従来の共有ストレージにチェックポイントを保存する方式ではそのI/0コストが問題であり、特に今後のスーパーコンピュータが大規模化されるにつれてより高頻度かつ高速なチェックポイント手法が必要とされる。我々の方式では各計算ノードのローカルストレージを活用することでスケーラビリティを達成し、かつ符号化により冗長性を持たせることで計算ノードの障害発生時にも再実行可能にする。また本方式ではチェックポイントの符号化コストが大きくなりうるが、我々は計算ノードを適切にグループ化することでそのコストを大幅に抑えることが可能であることを示した。またさらに符号化にCPU・GPUを適応的に選択して用いることでそのコストを隠蔽できることを示した。 また、GPUプログラムのチェックポイントを実現するためにCUDAプログラムについて調査を行い、そのチェックポイント方式について検討を行った。CUDAプログラムではランタイムライブラリおよびGPUドライバがGPUの状態を管理しており、適切にチェックポイント・再開するためにはこれらのライブラリが保持する状態を制御する必要がある。我々はCUDAプログラムの状態の一つであるGPUメモリに関して、ランタイムライブラリを拡張として独自メモリ管理機構を実現し、これによりメモリのチェックポイント・再開を可能にした。同手法をMPIを併用した用いた並列GPUプログラムへ適用し、チェックポイントの保存および再開が正しく実行可能であることを確認した。平成23年度はこれらの成果を基に大規模GPU並列プログラムの高速なチェックポイント技法について研究開発を進める。
|
-
-
-
-
-
-
-
-
[Presentation] An 80-Fold Speedup, 15.0 TFlops, Full GPU Acceleration of Non-Hydrostatic Weather Model ASUCA Production Code2010
Author(s)
Takashi Shimokawabe, Takayuki Aoki, Chiashi Muroi, Junichi Ishida, Kohei Kawano, Toshio Endo, Akira Nukada, Naoya Maruyama, Satoshi Matsuoka
Organizer
International Conference for High Performance Computing, Networking, Storage and Analysis (SC10)
Place of Presentation
New Orleans
Year and Date
2010-11-17
-
-
-
[Presentation] MPI-CUDA Applications Checkpointing2010
Author(s)
Toan Nguyen, Hideyuki Jitsumoto, Naoya Maruyama, Tatsuo Nomura, Toshio Endo, Satoshi Matsuoka
Organizer
Summer United Workshops on Parallel, Distributed and Cooperative Processing (SWoPP 2010)
Place of Presentation
金沢
Year and Date
2010-08-04
-
-
-
-
-
-