2011 Fiscal Year Research-status Report
Project/Area Number |
23650012
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
額田 彰 東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)
|
Project Period (FY) |
2011-04-28 – 2013-03-31
|
Keywords | GPGPU / CUDA / 自動チューニング / GPU間転送 |
Research Abstract |
まずGPUを対象とした自動チューニング手法に着手した. GPUの場合, コードの実装によって性能が何倍にも変動することが多く, またGPU製品・アーキテクチャの世代交代も非常に速いため自動チューニング手法は重要な役割を占める. NVIDIAのCUDAで自動チューニングを行うためには動的にコードを生成し, ファイルに保存し, nvccでコンパイルし, モジュールとしてロードし, 実行するという処理が通常であるが, これらの処理は全てCPU側で行われるため時間がかかる. 中でもコンパイル時の最適化に要する時間が長い. そこでFFTの計算を対象にして, メモリ上に, より低レベルなCUDA PTX言語でコードを生成し, メモリ上でコンパイルすることで大幅な時間短縮を実現した. CUDA PTXは中間言語であり, ループ不変数の検出などの通常コンパイラが担当する最適化を自ら適用しておく必要があるが, 一番難しいレジスタの最適化は行う必要がないため, 対象とする計算内容を熟知してさえいれば容易にコード生成が可能である. もう一つ重要となりつつある機能はGPU間のデータ転送である. 大規模なアプリケーションになるとGPUのメモリ容量では不足するため, 複数GPUを搭載するシステムや複数のノードを使用する必要がある. CUDAではバージョン4.0からPCI-Expressネットワークを介したGPU間の直接転送や, InfiniBand HCAとの協調動作などがサポートされ, 複数GPU化の効率が向上した. しかしながら多数のGPUを搭載する場合にはPCI-Expressネットワークのトポロジーの制約が大きく, また複数ノードの場合にはホスト側の特にメモリバスへの負荷が大きく, その辺りがボトルネックになっている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
CUDA 4.0で複数GPU対応が強化されたため, それらの検証を計画に追加した. また本研究によりCUDAに関連する各種コード最適化技法も見出すことができた. 一方, 計画にあった中でメモリのポーリングによるGPUスレッド制御については海外のグループによって発表されたため計画から除外した.
|
Strategy for Future Research Activity |
特に重要度の高い複数GPU関連を中心に実施する. ホスト側にボトルネックがある状況において自動チューニング的手法により最大の性能を引き出すことを目標とする. またNVIDIA社製の次世代Keplerコア搭載GPUの新機能について検証し, 新たなGPU活用手法を模索する.
|
Expenditure Plans for the Next FY Research Funding |
当初は本年度に購入予定であったNVIDIA社製の次世代GPUアーキテクチャであるKeplerコア搭載製品は出荷が遅れたため次年度に購入する. ハイエンドのGPUを複数個搭載するシステムを対象とするため次年度の物品費の大半をこれに充てる必要がある.
|
-
-
-
[Presentation] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011
Author(s)
Takashi Shimokawabe, Takayuki Aoki, Tomohiro Takaki, Akinori Yamanaka, Akira Nukada, Toshio Endo, Naoya Maruyama, and Satoshi Matsuoka
Organizer
2011 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’11)
Place of Presentation
Seattle, WA, USA
Year and Date
November 15th, 2011
-
-
-