2011 年度実施状況報告書

高度なＧＰＵプログラミング手法の開拓

研究課題

研究課題/領域番号	23650012
研究機関	東京工業大学
研究代表者	額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)
研究期間 (年度)	2011-04-28 – 2013-03-31
キーワード	GPGPU / CUDA / 自動チューニング / GPU間転送
研究概要	まずGPUを対象とした自動チューニング手法に着手した. GPUの場合, コードの実装によって性能が何倍にも変動することが多く, またGPU製品・アーキテクチャの世代交代も非常に速いため自動チューニング手法は重要な役割を占める. NVIDIAのCUDAで自動チューニングを行うためには動的にコードを生成し, ファイルに保存し, nvccでコンパイルし, モジュールとしてロードし, 実行するという処理が通常であるが, これらの処理は全てCPU側で行われるため時間がかかる. 中でもコンパイル時の最適化に要する時間が長い. そこでFFTの計算を対象にして, メモリ上に, より低レベルなCUDA PTX言語でコードを生成し, メモリ上でコンパイルすることで大幅な時間短縮を実現した. CUDA PTXは中間言語であり, ループ不変数の検出などの通常コンパイラが担当する最適化を自ら適用しておく必要があるが, 一番難しいレジスタの最適化は行う必要がないため, 対象とする計算内容を熟知してさえいれば容易にコード生成が可能である. もう一つ重要となりつつある機能はGPU間のデータ転送である. 大規模なアプリケーションになるとＧＰＵのメモリ容量では不足するため, 複数ＧＰＵを搭載するシステムや複数のノードを使用する必要がある. CUDAではバージョン4.0からPCI-Expressネットワークを介したGPU間の直接転送や, InfiniBand HCAとの協調動作などがサポートされ, 複数GPU化の効率が向上した. しかしながら多数のGPUを搭載する場合にはPCI-Expressネットワークのトポロジーの制約が大きく, また複数ノードの場合にはホスト側の特にメモリバスへの負荷が大きく, その辺りがボトルネックになっている.
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 CUDA 4.0で複数GPU対応が強化されたため, それらの検証を計画に追加した. また本研究によりCUDAに関連する各種コード最適化技法も見出すことができた. 一方, 計画にあった中でメモリのポーリングによるＧＰＵスレッド制御については海外のグループによって発表されたため計画から除外した.
今後の研究の推進方策	特に重要度の高い複数GPU関連を中心に実施する. ホスト側にボトルネックがある状況において自動チューニング的手法により最大の性能を引き出すことを目標とする. またNVIDIA社製の次世代Keplerコア搭載GPUの新機能について検証し, 新たなＧＰＵ活用手法を模索する.
次年度の研究費の使用計画	当初は本年度に購入予定であったNVIDIA社製の次世代GPUアーキテクチャであるKeplerコア搭載製品は出荷が遅れたため次年度に購入する. ハイエンドのGPUを複数個搭載するシステムを対象とするため次年度の物品費の大半をこれに充てる必要がある.

研究成果
(6件)

すべて 2012 2011

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (5件)

[雑誌論文] スーパーコンピュータTSUBAME 2.0 における Linpack 性能1 ペタフロップス超の達成2011
- 著者名/発表者名
  遠藤敏夫，額田彰，松岡聡
- 雑誌名
  
  情報処理学会論文誌コンピューティングシステム
  
  巻: Vol.4, No. 4 ページ: 169--179
- 査読あり
[学会発表] High Performance 3-D FFT using multiple CUDA GPUs2012
- 著者名/発表者名
  Akira Nukada, Yutaka Maruyama, Satoshi Matsuoka
- 学会等名
  Fifth Workshop on General Purpose Processing using Graphics Processing Units (GPGPU-5)
- 発表場所
  London, UK
- 年月日
  March 3rd, 2012
[学会発表] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011
- 著者名/発表者名
  Takashi Shimokawabe, Takayuki Aoki, Tomohiro Takaki, Akinori Yamanaka, Akira Nukada, Toshio Endo, Naoya Maruyama, and Satoshi Matsuoka
- 学会等名
  2011 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’11)
- 発表場所
  Seattle, WA, USA
- 年月日
  November 15th, 2011
[学会発表] NVCR: A Transparent Checkpoint-Restart Library for NVIDIA CUDA2011
- 著者名/発表者名
  Akira Nukada, Hiroyuki Takizawa, Satoshi Matsuoka
- 学会等名
  20th Heterogeneity in Computing Workshop
- 発表場所
  Anchorage, AK, USA
- 年月日
  May 16th 2011
[学会発表] Fast Fourier Transform for AMD GPUs2011
- 著者名/発表者名
  Akira Nukada
- 学会等名
  AMD Fusion Developer Summit 2011
- 発表場所
  Bellevue, WA, USA
- 年月日
  June 15th, 2011
[学会発表] Hamming Color Code for Dense and Robust One-shot 3D Scanning2011
- 著者名/発表者名
  Shuntaro Yamazaki, Akira Nukada, Masaaki Mochimaru
- 学会等名
  2011 British Machine Vision Conference
- 発表場所
  Dundee, Scotland
- 年月日
  August 30th, 2011

2011 年度 実施状況報告書

高度なＧＰＵプログラミング手法の開拓

研究代表者

額田 彰 東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] スーパーコンピュータTSUBAME 2.0 における Linpack 性能1 ペタフロップス超の達成2011

著者名/発表者名

雑誌名

[学会発表] High Performance 3-D FFT using multiple CUDA GPUs2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] NVCR: A Transparent Checkpoint-Restart Library for NVIDIA CUDA2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Fast Fourier Transform for AMD GPUs2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Hamming Color Code for Dense and Robust One-shot 3D Scanning2011

著者名/発表者名

学会等名

発表場所

年月日

2011 年度実施状況報告書

額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)