研究課題
平成22年度は符号理論を応用することで計算ノードのローカルストレージを活用したチェックポイント手法を提案、開発し、実際に100並列程度の小規模な環境においてその有効性を確認した。従来の共有ストレージにチェックポイントを保存する方式ではそのI/0コストが問題であり、特に今後のスーパーコンピュータが大規模化されるにつれてより高頻度かつ高速なチェックポイント手法が必要とされる。我々の方式では各計算ノードのローカルストレージを活用することでスケーラビリティを達成し、かつ符号化により冗長性を持たせることで計算ノードの障害発生時にも再実行可能にする。また本方式ではチェックポイントの符号化コストが大きくなりうるが、我々は計算ノードを適切にグループ化することでそのコストを大幅に抑えることが可能であることを示した。またさらに符号化にCPU・GPUを適応的に選択して用いることでそのコストを隠蔽できることを示した。また、GPUプログラムのチェックポイントを実現するためにCUDAプログラムについて調査を行い、そのチェックポイント方式について検討を行った。CUDAプログラムではランタイムライブラリおよびGPUドライバがGPUの状態を管理しており、適切にチェックポイント・再開するためにはこれらのライブラリが保持する状態を制御する必要がある。我々はCUDAプログラムの状態の一つであるGPUメモリに関して、ランタイムライブラリを拡張として独自メモリ管理機構を実現し、これによりメモリのチェックポイント・再開を可能にした。同手法をMPIを併用した用いた並列GPUプログラムへ適用し、チェックポイントの保存および再開が正しく実行可能であることを確認した。平成23年度はこれらの成果を基に大規模GPU並列プログラムの高速なチェックポイント技法について研究開発を進める。
すべて 2011 2010
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (15件) 図書 (1件)
New Generation Computing
巻: Vol.28,No.3 ページ: 237-255