計算実行中の障害や実行時間制限のある共用システムで長時間要する計算を行うときには実行状態を保存するチェックポイント技術が有効である。ユーザのプログラムを修正する必要がないシステムレベルチェックポイントではCPUのメモリのイメージを保存する仕組みでありGPUアプリケーションに対応していない。GPUのランタイムライブラリを置き換えることによってGPU側の状態をCPUメモリに保存し、また再開時にはそのデータからGPU側の状態を再構築する技術を確立した。再構築するためにはGPUにアクセスするプロセスを分離することが必須で、ライブラリ関数の呼び出しをプロセス間でリレーする方式を採用した。
|