研究課題
将来,CPUコアとGPUコアが密に結合されているシステムが重要になると考えられている.そこで本研究ではそのようなシステムでの代数的多重格子法の実装手法の研究を目的とした.研究の結果,GPU上で単精度で演算を行い,CPU上で精度補正を行う混合精度 代数的多重格子法はCPU-GPU間の通信を最小化し,このような計算環境で効率よく演算ができることがわかった.以下,検討の手順とその結果について記述する.GPUは高い並列性がある問題では高速に処理できる性質と演算精度によって性能が大きく変化する特徴がある.そこで本研究で利用するアルゴリズムとして、以下の二つを対象とした.1.問題サイズの大きいレベルはGPUコアで処理し,サイズの小さい問題はCPUコアで処理する手法2.GPUコアでは単精度で演算を行い,適切にCPUコアで倍精度に精度補正する手法1と2を比較すると1では少なくとも1反復あたり1回はCPUとの通信が必要になると同時に,小さい問題を処理する時間の割合を考えると2の方が妥当な実装と考えられる.そこで,本研究では2.をOpenCLで実装し評価を行った.この手法はGPUコアでは精度を落とした単精度の計算を行い,所定の相対残差レベルに到達したらCPUコアで倍精度で残差計算を行い右辺ベクトルを補正する混合精度の手法である.Trinity世代のAPUでOpenCLを用いて評価を行ったところ,通常の収束条件ではCPUコアによる精度補正は数回程度しかないことがわかった.簡単な3次元ポアソン方程式の場合、倍精度だと31回で収束していたものが、混合精度にすると単精度演算で38回で収束し,その間CPUによる精度補正は3回しか行われなかった.結果として,混合精度代数的多重格子法はGPU単体で計算する場合,もしくはCPUによる精度補正を行う場合,ともに非常に有効な実装手法となることが判明した.
すべて 2013 2012
すべて 雑誌論文 (4件) (うち査読あり 2件) 学会発表 (6件)
電子情報通信学会論文誌 D
巻: Vol.J96-D No.3 ページ: 452-460
情報処理学会 ハイパフォーマンスコンピューティング研究会研究報告
巻: Vol.2012-HPC-137,No.36 ページ: 1-7
Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12)
巻: - ページ: 1-10
巻: Vol.2012-HPC-137 No.30 ページ: 1-8