ＧＰＵアプリケーションに対するシステムレベルのチェックポイント技術の確立

研究課題

研究課題/領域番号	20K19807
研究種目	若手研究
配分区分	基金
審査区分	小区分60090:高性能計算関連
研究機関	筑波大学
研究代表者	額田彰筑波大学, 計算科学研究センター, 教授 (40545688)
研究期間 (年度)	2020-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円) 2020年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
キーワード	ＧＰＵコンピューティング / チェックポイント / ＣＵＤＡ / GPU / CUDA / GPUコンピューティング
研究開始時の研究の概要	GPU は高性能計算や深層学習の分野に広く普及し、アプリケーションはますます増え続け巨大化している。アプリケーションの実行の中断・再開を可能とするチェックポイントは、耐故障用途や長時間実行、共用計算機資源の有効利用のために不可欠な技術である。特にアプリケーションを使うユーザに一切負担がないシステムレベル・チェックポイントの有用性は極めて高い。それにも関わらず、GPU搭載システムではこれまでチェックポイント機能が全く実現できていない。本研究ではGPUアプリケーションのチェックポイント機能を最小の実行時間オーバヘッドで実現する方法を解明し、実システム上で機能的および性能的な有用性を実証する。
研究成果の概要	計算実行中の障害や実行時間制限のある共用システムで長時間要する計算を行うときには実行状態を保存するチェックポイント技術が有効である。ユーザのプログラムを修正する必要がないシステムレベルチェックポイントではＣＰＵのメモリのイメージを保存する仕組みでありＧＰＵアプリケーションに対応していない。ＧＰＵのランタイムライブラリを置き換えることによってＧＰＵ側の状態をＣＰＵメモリに保存し、また再開時にはそのデータからＧＰＵ側の状態を再構築する技術を確立した。再構築するためにはＧＰＵにアクセスするプロセスを分離することが必須で、ライブラリ関数の呼び出しをプロセス間でリレーする方式を採用した。
研究成果の学術的意義や社会的意義	現在ＧＰＵコンピューティングで主流となっているＮＶＩＤＩＡ社のＧＰＵに関して、ＣＵＤＡで開発されたアプリケーションの実行バイナリを改変することなくチェックポイントに対応するソフトウェアの確立に成功した。プロセスを分離する方式を採用していることによってライブラリ関数の呼び出しやＣＰＵとＧＰＵ間のデータ転送にオーバヘッドが生じる。主要な関数や実アプリケーションについてオーバヘッドの評価を行ったところ、ＧＰＵが十分に活用されているような状況ではオーバヘッドが非常に小さいことを確認している。

報告書

(5件)

研究成果
(9件)

すべて 2024 2023 2022 2021

すべて雑誌論文 (4件) (うち国際共著 1件、査読あり 4件) 学会発表 (5件) (うち国際学会 3件)

[雑誌論文] Efficient checkpoint/Restart of CUDA applications2023
- 著者名/発表者名
  Nukada Akira、Suzuki Taichiro、Matsuoka Satoshi
- 雑誌名
  
  Parallel Computing
  
  巻: 116 ページ: 103018-103018
- DOI
  10.1016/j.parco.2023.103018
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Accelerating data transfer between host and device using idle GPU2022
- 著者名/発表者名
  Tatsugi Yuya、Nukada Akira
- 雑誌名
  
  GPGPU '22: Proceedings of the 14th Workshop on General Purpose Processing Using GPU
  
  巻: - ページ: 1-6
- DOI
  10.1145/3530390.3532732
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Efficient high-precision integer multiplication on the GPU2022
- 著者名/発表者名
  Dieguez Adrian P、Amor Margarita、Doallo Ramon、Nukada Akira、Matsuoka Satoshi
- 雑誌名
  
  The International Journal of High Performance Computing Applications
  
  巻: 36 号: 3 ページ: 356-369
- DOI
  10.1177/10943420221077964
- 関連する報告書
  2022 実施状況報告書
- 査読あり / 国際共著
[雑誌論文] Performance Optimization of Allreduce Operation for Multi-GPU Systems2021
- 著者名/発表者名
  Nukada Akira
- 雑誌名
  
  2021 IEEE International Conference on Big Data (Big Data)
  
  巻: - ページ: 3107-3112
- DOI
  10.1109/bigdata52589.2021.9672073
- 関連する報告書
  2021 実施状況報告書
- 査読あり
[学会発表] Performance Evaluation of OpenSWPC using Various GPU Programming Methods2024
- 著者名/発表者名
  Tatsumasa Seimi, Akira Nukada
- 学会等名
  The International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2024)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] GPU Acceleration of OpenSWPC using DO CONCURRENT2023
- 著者名/発表者名
  Tatsumasa Seimi, Akira Nukada
- 学会等名
  GPU Technology Conference 2023 Spring
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] DO CONCURRENT構文によるOpenSWPCのGPU化2023
- 著者名/発表者名
  勢見達将, 額田彰
- 学会等名
  情報処理学会ハイパフォーマンスコンピューティング研究会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Hybrid Allreduce Algorithm for On-node Multi-GPU Systems using both NV-Link and PCI-Express Networks2022
- 著者名/発表者名
  Akira Nukada
- 学会等名
  NVIDIA GTC 2022
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 遊休GPUを利用したホスト・デバイス間通信の高速化2022
- 著者名/発表者名
  立木佑弥, 額田彰
- 学会等名
  情報処理学会ハイパフォーマンスコンピューティング研究会
- 関連する報告書
  2021 実施状況報告書

ＧＰＵアプリケーションに対するシステムレベルのチェックポイント技術の確立

研究代表者

額田 彰 筑波大学, 計算科学研究センター, 教授 (40545688)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

報告書

研究成果

[雑誌論文] Efficient checkpoint/Restart of CUDA applications2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Accelerating data transfer between host and device using idle GPU2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Efficient high-precision integer multiplication on the GPU2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Performance Optimization of Allreduce Operation for Multi-GPU Systems2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Performance Evaluation of OpenSWPC using Various GPU Programming Methods2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] GPU Acceleration of OpenSWPC using DO CONCURRENT2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] DO CONCURRENT構文によるOpenSWPCのGPU化2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Hybrid Allreduce Algorithm for On-node Multi-GPU Systems using both NV-Link and PCI-Express Networks2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 遊休GPUを利用したホスト・デバイス間通信の高速化2022

著者名/発表者名

学会等名

関連する報告書

額田彰筑波大学, 計算科学研究センター, 教授 (40545688)