2023 Fiscal Year Final Research Report
System-level Checkpoint Technology for GPU Applications
Project/Area Number |
20K19807
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
Akira Nukada 筑波大学, 計算科学研究センター, 教授 (40545688)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | GPUコンピューティング / チェックポイント / CUDA |
Outline of Final Research Achievements |
Checkpoint, which saves and restores the state of running processes, is a key technology for system failure during job executions or for executing long-running applications on systems with execution time limits. System-level checkpoint saves whole system memory image of CPU, and is not compatible with GPU applications. We introduce another GPU runtime library to replace user applications' calls to save GPU state in order to restore the GPU state on restarting. To restore the GPU state, we need to employ another dedicated process which accesses GPU, and all GPU library calls are relayed to the server process.
|
Free Research Field |
GPUコンピューティング
|
Academic Significance and Societal Importance of the Research Achievements |
現在GPUコンピューティングで主流となっているNVIDIA社のGPUに関して、CUDAで開発されたアプリケーションの実行バイナリを改変することなくチェックポイントに対応するソフトウェアの確立に成功した。プロセスを分離する方式を採用していることによってライブラリ関数の呼び出しやCPUとGPU間のデータ転送にオーバヘッドが生じる。主要な関数や実アプリケーションについてオーバヘッドの評価を行ったところ、GPUが十分に活用されているような状況ではオーバヘッドが非常に小さいことを確認している。
|