• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

GPUアプリケーションに対するシステムレベルのチェックポイント技術の確立

Research Project

Project/Area Number 20K19807
Research InstitutionUniversity of Tsukuba

Principal Investigator

額田 彰  筑波大学, 計算科学研究センター, 教授 (40545688)

Project Period (FY) 2020-04-01 – 2022-03-31
KeywordsGPUコンピューティング / チェックポイント
Outline of Annual Research Achievements

現在のスーパーコンピュータではコストパフォーマンスや電力効率に優れるGPUを主たる演算器として採用することが非常に多くなってきており、膨大な演算性能を要求する大規模アプリケーションをはじめ多くの計算がGPUを利用するようになってきている。GPUの使用により演算が高速化されているが、大規模や高精度な計算を行うようになった結果としてアプリケーションの実行時間は短くなっておらず、むしろ長くなっている。スーパーコンピュータなどの共用システムでは実行時間制限があり、また長時間連続の計算実行時に障害が発生すれば再計算が必要となる。これらに対応するためにアプリケーションの実行を再開できるように定期的に状態保存を行うチェックポイント技術が重要である。
各種CPUを対象としたチェックポイントを実現するソフトウェアは提供されているが、GPUに対応するものはまだない。メインメモリ以外の場所にGPUの状態を保存しているGPUコンピューティングの仕組みがチェックポイント対応を難しくしている。そこで本研究課題ではGPU対応チェックポイントの実現を目指す。
まずGPUコンピューティングの中で現在最も普及しているNVIDIAのCUDA環境をターゲットとする。CUDAではCUDA APIという関数群を使ってCPUからGPUを操作する。これらのAPIを精査して、同じGPU状態を再現する方法を模索する。アプリケーションを再開する際にはキーとなるCUDA API(主にリソースの確保を行うもの)をリプレイすることによってまったく同じGPU状態の再現を行う。このために必要なCUDA APIの呼び出し情報を記録するようなランタイムライブラリを実装することによって、アプリケーションに対して透過的にチェックポイントを実現することができる。これらの追加処理をなるべく低オーバヘッドで実現できるように最適化を進めている。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

研究代表者の異動があり、また様々な面でコロナ禍の影響を受けた。年度当初は在宅勤務期間が続いたため研究環境構築が遅れ、また交付時期自体も延期された。それにより主要な実験機材の発注に遅れが出、また流通状況の悪化により納入も遅れてしまった。この間は既存の実験機材や共用資源を利用してできる範囲で研究を進めた。

Strategy for Future Research Activity

ベンチマークや実アプリケーションを利用してオーバヘッドの評価を行いながら最適化を進めている。これらが完了し次第、論文として公表する予定である。
またCUDA API以外についても実装、あるいはその可能性について精査してまとめることが必要であると考える。

Causes of Carryover

コロナ禍の影響で、GPU製品の開発に遅れが生じ、また生産や流通にも影響が出ている。また予定していた国際会議等がオンライン開催となったためこの分の旅費を追加の物品購入にまわす予定であるが、年度内に購入することはできなかった。

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi