2011 Fiscal Year Annual Research Report
GPUによるFFT計算の自動チューニング手法の研究
Project/Area Number |
22680002
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
額田 彰 東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)
|
Keywords | 高速フーリエ変換 / GPU / CUDA / 自動チューニング |
Research Abstract |
GPGPUで現在主流となっているのはCUDA環境であるが,NVIDIA製GPUのみを対象としているという制限がある.他のベンダのGPUやメニーコアプロセッサも対象とする共通のプログラム環境の中でCUDAに一番近いものがOpenCLである.OpenCL環境ではCUDAとほぼ同じ機能が提供されており,特にFFTの計算を実行するカーネル部分のコードは似ている.唯一の差異はFFTで利用する三角関数のテープルの扱いで,CUDAではテクスチャメモリを利用していたがOpenCLではコンスタントメモリを使用した.AMD製RADEON HD7970を用いてCUDA+NVIDIA製GPUを超える性能を実現することができた.一方,性能のポータビリティはOpenCLでは確保されていない.NVIDIA製GPUではCUDA版と比べるとOpenCL版の性能は現時点ではかなり劣る.今後ドライバの成熟を待てばこの差は縮まることが期待される. さらに複数GPUへの対応も進めている.特にGPUのデバイスメモリ容量は限られるため,実アプリケーションでは容量を確保するために複数GPUを利用するケースも少なくない.GPU間の転送はPCI-ExpressインターフェイスやInfiniBandなどのノード間インターコネクトの性能に大きく依存し,実行時間の大部分をGPU間のall-to-all通信が占めることになる.CUDAではversion4.0からこのGPU間通信を強化しており,PCI-Expressネットワークを介したGPU問の直接通信や,InfinlBand HCAとの協調動作などがサポートされた.これらの機能を活用することで,通信が全く必要ないシングルGPU実行時と比べても4GPU搭載システムで約2倍,64ノード64GPUのクラスタで最大13倍の性能向上を実現した.通信関連の各種自動最適化は今後の課題である。
|
Research Products
(7 results)
-
-
-
[Presentation] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011
Author(s)
Takashi Shimokawabe, Takayuki Aoki, Tomohiro Takaki, Akinori Yamanaka, Akira Nukada, Toshio Endo, Naoya Maruyama, Satoshi Matsuoka
Organizer
2011 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC'11)
Place of Presentation
Seattle, WA, USA
Year and Date
2011-11-15
-
-
-
-