Project/Area Number |
20K19807
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
Akira Nukada 筑波大学, 計算科学研究センター, 教授 (40545688)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2020: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
|
Keywords | GPUコンピューティング / チェックポイント / CUDA / GPU / CUDA / GPUコンピューティング |
Outline of Research at the Start |
GPU は高性能計算や深層学習の分野に広く普及し、アプリケーションはますます増え続け巨大化している。アプリケーションの実行の中断・再開を可能とするチェックポイントは、耐故障用途や長時間実行、共用計算機資源の有効利用のために不可欠な技術である。特にアプリケーションを使うユーザに一切負担がないシステムレベル・チェックポイントの有用性は極めて高い。それにも関わらず、GPU搭載システムではこれまでチェックポイント機能が全く実現できていない。本研究ではGPUアプリケーションのチェックポイント機能を最小の実行時間オーバヘッドで実現する方法を解明し、実システム上で機能的および性能的な有用性を実証する。
|
Outline of Final Research Achievements |
Checkpoint, which saves and restores the state of running processes, is a key technology for system failure during job executions or for executing long-running applications on systems with execution time limits. System-level checkpoint saves whole system memory image of CPU, and is not compatible with GPU applications. We introduce another GPU runtime library to replace user applications' calls to save GPU state in order to restore the GPU state on restarting. To restore the GPU state, we need to employ another dedicated process which accesses GPU, and all GPU library calls are relayed to the server process.
|
Academic Significance and Societal Importance of the Research Achievements |
現在GPUコンピューティングで主流となっているNVIDIA社のGPUに関して、CUDAで開発されたアプリケーションの実行バイナリを改変することなくチェックポイントに対応するソフトウェアの確立に成功した。プロセスを分離する方式を採用していることによってライブラリ関数の呼び出しやCPUとGPU間のデータ転送にオーバヘッドが生じる。主要な関数や実アプリケーションについてオーバヘッドの評価を行ったところ、GPUが十分に活用されているような状況ではオーバヘッドが非常に小さいことを確認している。
|