2012 年度実施状況報告書

高度なＧＰＵプログラミング手法の開拓

研究課題

研究課題/領域番号	23650012
研究機関	東京工業大学
研究代表者	額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)
キーワード	GPGPU / CUDA / 自動チューニング / GPU間転送
研究概要	NVIDIA CUDAが登場して以来、これまで多くのアプリケーションがGPUによって高速化されてきた。その結果として現在GPUのメモリ容量の制約が一番大きな障害となっている。ホストメモリに大部分のデータを置き、適宜GPUにデータを転送する方法も可能ではあるが、PCI-Expressの帯域の限界による性能低下は避けられない。この対策として複数のGPUを使った計算が行われるようになってきた。特にGPUを搭載する計算ノードを多数、高速なInfiniBandネットワークで接続するGPUクラスタが注目されている。 GPUクラスタを用いた計算対象として、特にGPU間でのデータ転送量が多い高速フーリエ変換（FFT)を用いた。FFTでは全GPU間での全対全通信が必要になるという最も難しいタイプである。Fat-TreeトポロジーのInfiniBandネットワークの場合、理論的な通信バンド幅はノード数に比例するため、FFTの計算性能もノード数に比例することが期待される。しかしながら実際に計測すると、特にTSUBAME2.0のような大規模なネットワークではノード数が増加するにつれて効率低下が見られることが多い。このような状況下でも安定した性能を出すために通信アルゴリズムの改良を行う。(1) 小さいメッセージを効率よく転送するためにMPIライブラリではなくlow levelのIBverbs APIを用い、(2) 混雑に巻き込まれた場合の影響を低減させるために複数のRDMA転送を同時実行し、(3) 2系統あるInfiniBandネットワークを活用して、衝突が少なくなるように各相手ノードとの通信をそれぞれのネットワークに動的に振り分ける、という手法を用いる。その結果スケーラビリティは大きく向上し、256ノード使用時に最大4.8TFLOPSの性能を達成することができた。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由計画に挙げた３項目のうち、自動チューニングとGPU間通信関連についてはほぼ予定通り達成された。残りの１つとしてNVIDIAのKepler世代GPUの新機能を使ったより柔軟なGPUプログラミング手法については残念ながら遅れている。Keplerから新機能が搭載されることは本研究の応募段階から知られていたが、NVIDIAの製品出荷スケジュールが予定より遅れたことが原因である。またKepler世代GPUは実際にはK10とK20の二つのシリーズに分かれており、前者は６月、後者は１１月に発表された。これまでKeplerの新機能と呼ばれていた機能のほとんどは後者のK20から実装されていた。K20の製品入手にも時間がかかるため、平成２４年度中に十分な研究成果を挙げることが困難と判断し、研究期間の延長を申請した。
今後の研究の推進方策	最終年度は前年度までに達成することができなかったK20を使った新機能に関連する研究を行う。より性能が高いGeForce Titanの利用も検討している。
次年度の研究費の使用計画	前年度の未使用額を次年度の計画のために使用する。具体的にはGPUデバイスとしてK20またはGeForce Titan、またはその両方を購入する。また金額的に可能であれば成果発表ための旅費としても使用する。

研究成果
(4件)

すべて 2012

すべて雑誌論文 (2件) (うち査読あり 1件) 学会発表 (2件)

[雑誌論文] GPU スパコンTSUBAME 2.0 によるフェーズフィールド法を用いた2 petaflops樹枝状凝固成長計算2012
- 著者名/発表者名
  下川辺隆史, 青木尊之, 高木知弘, 山中晃徳, 額田彰
- 雑誌名
  
  第17回計算工学講演会論文集
  
  巻: Vol. 17 ページ: 1-4
[雑誌論文] Scalable Multi-GPU 3-D FFT for TSUBAME 2.0 Supercomputer2012
- 著者名/発表者名
  Akira Nukada, Kento Sato and Satoshi Matsuoka
- 雑誌名
  
  Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12)
  
  巻: - ページ: 1-10
- 査読あり
[学会発表] Performance of 3-D FFT using Multiple GPUs with CUDA 42012
- 著者名/発表者名
  Akira Nukada
- 学会等名
  NVIDIA GPU Technology Conference 2012
- 発表場所
  San Jose, CA, USA
- 年月日
  20120514-20120517
[学会発表] CUDA版自動チューニング手法2012
- 著者名/発表者名
  額田彰
- 学会等名
  GPU Technology Conference Japan 2012
- 発表場所
  六本木
- 年月日
  2012-07-26

2012 年度 実施状況報告書

高度なＧＰＵプログラミング手法の開拓

研究代表者

額田 彰 東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] GPU スパコンTSUBAME 2.0 によるフェーズフィールド法を用いた2 petaflops樹枝状凝固成長計算2012

著者名/発表者名

雑誌名

[雑誌論文] Scalable Multi-GPU 3-D FFT for TSUBAME 2.0 Supercomputer2012

著者名/発表者名

雑誌名

[学会発表] Performance of 3-D FFT using Multiple GPUs with CUDA 42012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] CUDA版自動チューニング手法2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実施状況報告書

額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)