平成25年度においては,エクサスケール計算環境に向けた高速フーリエ変換(FFT)として,GPUクラスタにおける並列一次元FFTの実装について検討を行った。 GPUクラスタにおいて並列一次元FFTを行う際には,全対全通信が3回行われることから,計算時間の大部分が全対全通信によって占められることになる。さらにCPUとGPU間を接続するインターフェースであるPCI Expressバスの理論ピークバンド幅はPCI Express Gen 2 x 16レーンの場合には一方向あたり8GB/secとなっていることから,CPUとGPU間のデータ転送量を削減することも重要になる。 GPU上のメモリをMPIにより転送する場合,基本的には(1) GPU上のデバイスメモリからCPU上のホストメモリへデータをコピーする,(2) MPIの通信関数を用いて転送する,(3) CPU上のホストメモリからGPU上のデバイスメモリにコピーする,という手順で行う必要がある。この場合,CPUとGPUのデータ転送を行っている間はMPIの通信が行われないという問題がある。そこで,CPUとGPU間のデータ転送とノード間のMPI通信をパイプライン化してオーバーラップすることができるMPIライブラリであるMVAPICH2を用いることで,この問題を解決した。さらに,FFTの処理において出現する行列の転置の処理をGPU上で行うなどの工夫も行った。 その結果,GPUクラスタにおける並列一次元FFTがPCクラスタにおける並列一次元FFTよりも高速に実行できることを確認した。 今後,エクサスケール計算環境においては,GPUなどのアクセラレータを搭載した計算ノードにおける性能が重要になる。本年度の成果は,ペタスケール計算環境において高い性能が達成される見込みであり,多くのアプリケーションで計算時間を短縮することができるものと期待できる。 また,平成25年度に行った研究成果を国際会議等で発表すると共に,それらの内容をまとめて学術雑誌等に論文を投稿する予定である。
|