• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

GPUアプリケーションに対するシステムレベルのチェックポイント技術の確立

研究課題

研究課題/領域番号 20K19807
研究機関筑波大学

研究代表者

額田 彰  筑波大学, 計算科学研究センター, 教授 (40545688)

研究期間 (年度) 2020-04-01 – 2022-03-31
キーワードGPUコンピューティング / チェックポイント
研究実績の概要

現在のスーパーコンピュータではコストパフォーマンスや電力効率に優れるGPUを主たる演算器として採用することが非常に多くなってきており、膨大な演算性能を要求する大規模アプリケーションをはじめ多くの計算がGPUを利用するようになってきている。GPUの使用により演算が高速化されているが、大規模や高精度な計算を行うようになった結果としてアプリケーションの実行時間は短くなっておらず、むしろ長くなっている。スーパーコンピュータなどの共用システムでは実行時間制限があり、また長時間連続の計算実行時に障害が発生すれば再計算が必要となる。これらに対応するためにアプリケーションの実行を再開できるように定期的に状態保存を行うチェックポイント技術が重要である。
各種CPUを対象としたチェックポイントを実現するソフトウェアは提供されているが、GPUに対応するものはまだない。メインメモリ以外の場所にGPUの状態を保存しているGPUコンピューティングの仕組みがチェックポイント対応を難しくしている。そこで本研究課題ではGPU対応チェックポイントの実現を目指す。
まずGPUコンピューティングの中で現在最も普及しているNVIDIAのCUDA環境をターゲットとする。CUDAではCUDA APIという関数群を使ってCPUからGPUを操作する。これらのAPIを精査して、同じGPU状態を再現する方法を模索する。アプリケーションを再開する際にはキーとなるCUDA API(主にリソースの確保を行うもの)をリプレイすることによってまったく同じGPU状態の再現を行う。このために必要なCUDA APIの呼び出し情報を記録するようなランタイムライブラリを実装することによって、アプリケーションに対して透過的にチェックポイントを実現することができる。これらの追加処理をなるべく低オーバヘッドで実現できるように最適化を進めている。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

研究代表者の異動があり、また様々な面でコロナ禍の影響を受けた。年度当初は在宅勤務期間が続いたため研究環境構築が遅れ、また交付時期自体も延期された。それにより主要な実験機材の発注に遅れが出、また流通状況の悪化により納入も遅れてしまった。この間は既存の実験機材や共用資源を利用してできる範囲で研究を進めた。

今後の研究の推進方策

ベンチマークや実アプリケーションを利用してオーバヘッドの評価を行いながら最適化を進めている。これらが完了し次第、論文として公表する予定である。
またCUDA API以外についても実装、あるいはその可能性について精査してまとめることが必要であると考える。

次年度使用額が生じた理由

コロナ禍の影響で、GPU製品の開発に遅れが生じ、また生産や流通にも影響が出ている。また予定していた国際会議等がオンライン開催となったためこの分の旅費を追加の物品購入にまわす予定であるが、年度内に購入することはできなかった。

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi