2021 Fiscal Year Research-status Report
GPUアプリケーションに対するシステムレベルのチェックポイント技術の確立
Project/Area Number |
20K19807
|
Research Institution | University of Tsukuba |
Principal Investigator |
額田 彰 筑波大学, 計算科学研究センター, 教授 (40545688)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | GPU / CUDA / チェックポイント |
Outline of Annual Research Achievements |
耐故障性の確保や共有システムの実行時間制限への対応としてチェックポイント技術が重要である。特にユーザアプリケーション側の修正が不要である透過的なシステムレベルチェックポイントは多くのユーザにとって有益である。通常のCPUアプリケーションについては対応ソフトウェアが既に存在するが、それらはGPUに対応していない。そこでCPU向けのチェックポイントソフトウェアを拡張してGPUに対応させる手法の研究を行った。 GPUの状態を保存することができないことが根本的な原因であり、その代わりにGPUの状態を再構築するのに必要な情報を集積、保存する手法をとる。NVIDIA製GPUを利用するCUDAアプリケーションを対象として、GPUを操作するCUDA API関数をモニタリングして記録する。再構築に必要なAPI呼び出しは資源の確保・解放や属性変更など一部に限られ、主たる計算部分であるカーネル等は再実行する必要がないためGPUの状態を現実的な時間で再構築することが可能である。 本年度は特にマルチGPU関連を遂行した。1つのプロセスが複数のGPUを使用することは多く、CPUと全てのGPUで同じ仮想アドレス空間を使用しているためプログラミング上のメリットがある。一方でGPUの状態を再構築する際にも、複数のGPUに対して同じ順番で各APIを再実行する必要性があり、そのために記録時に排他制御が必要となるが性能上の影響は非常に小さい。NVIDIA GPU間を直接接続する高速ネットワークNV-Linkに関しては現在のCUDAランタイムでは明示的に操作するものではないため再構築時に特別な対応は不要であった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
コロナ禍の影響で半導体部品の流通が悪化しており、導入した計算機の修理にも長期間要してしまっている。また追加で導入予定であった計算機についても納期が不透明な状況である。既存のシステムを活用して研究を進めているが、最新の世代のGPUでの動作検証や最適化ができていない。
|
Strategy for Future Research Activity |
最終年度として、本研究課題のまとめを行う。流通の問題がどれくらい回復するかはまだ不透明であるが、現行のAmpere世代GPU、できれば最新のHopper世代のGPUでの検証を完了させるよう計画的に機器の調達を進めていく。投稿中の雑誌論文については査読が長期化しているが、今年度中に掲載されることを期待する。
|
Causes of Carryover |
流通の問題で納期が不確実であったため導入を延期し、次年度に実験用計算機として最新のGPUを搭載するシステムを購入する費用に充てる。また海外渡航できるようになれば国際会議等での成果発表を行う旅費として使用する。
|
Research Products
(3 results)