研究課題/領域番号 |
20K19807
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分60090:高性能計算関連
|
研究機関 | 筑波大学 |
研究代表者 |
額田 彰 筑波大学, 計算科学研究センター, 教授 (40545688)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
2020年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
|
キーワード | GPUコンピューティング / チェックポイント / CUDA / GPU / CUDA / GPUコンピューティング |
研究開始時の研究の概要 |
GPU は高性能計算や深層学習の分野に広く普及し、アプリケーションはますます増え続け巨大化している。アプリケーションの実行の中断・再開を可能とするチェックポイントは、耐故障用途や長時間実行、共用計算機資源の有効利用のために不可欠な技術である。特にアプリケーションを使うユーザに一切負担がないシステムレベル・チェックポイントの有用性は極めて高い。それにも関わらず、GPU搭載システムではこれまでチェックポイント機能が全く実現できていない。本研究ではGPUアプリケーションのチェックポイント機能を最小の実行時間オーバヘッドで実現する方法を解明し、実システム上で機能的および性能的な有用性を実証する。
|
研究成果の概要 |
計算実行中の障害や実行時間制限のある共用システムで長時間要する計算を行うときには実行状態を保存するチェックポイント技術が有効である。ユーザのプログラムを修正する必要がないシステムレベルチェックポイントではCPUのメモリのイメージを保存する仕組みでありGPUアプリケーションに対応していない。GPUのランタイムライブラリを置き換えることによってGPU側の状態をCPUメモリに保存し、また再開時にはそのデータからGPU側の状態を再構築する技術を確立した。再構築するためにはGPUにアクセスするプロセスを分離することが必須で、ライブラリ関数の呼び出しをプロセス間でリレーする方式を採用した。
|
研究成果の学術的意義や社会的意義 |
現在GPUコンピューティングで主流となっているNVIDIA社のGPUに関して、CUDAで開発されたアプリケーションの実行バイナリを改変することなくチェックポイントに対応するソフトウェアの確立に成功した。プロセスを分離する方式を採用していることによってライブラリ関数の呼び出しやCPUとGPU間のデータ転送にオーバヘッドが生じる。主要な関数や実アプリケーションについてオーバヘッドの評価を行ったところ、GPUが十分に活用されているような状況ではオーバヘッドが非常に小さいことを確認している。
|