2012 Fiscal Year Research-status Report

高度なＧＰＵプログラミング手法の開拓

Research Project

Project/Area Number	23650012
Research Institution	Tokyo Institute of Technology
Principal Investigator	額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)
Keywords	GPGPU / CUDA / 自動チューニング / GPU間転送
Research Abstract	NVIDIA CUDAが登場して以来、これまで多くのアプリケーションがGPUによって高速化されてきた。その結果として現在GPUのメモリ容量の制約が一番大きな障害となっている。ホストメモリに大部分のデータを置き、適宜GPUにデータを転送する方法も可能ではあるが、PCI-Expressの帯域の限界による性能低下は避けられない。この対策として複数のGPUを使った計算が行われるようになってきた。特にGPUを搭載する計算ノードを多数、高速なInfiniBandネットワークで接続するGPUクラスタが注目されている。 GPUクラスタを用いた計算対象として、特にGPU間でのデータ転送量が多い高速フーリエ変換（FFT)を用いた。FFTでは全GPU間での全対全通信が必要になるという最も難しいタイプである。Fat-TreeトポロジーのInfiniBandネットワークの場合、理論的な通信バンド幅はノード数に比例するため、FFTの計算性能もノード数に比例することが期待される。しかしながら実際に計測すると、特にTSUBAME2.0のような大規模なネットワークではノード数が増加するにつれて効率低下が見られることが多い。このような状況下でも安定した性能を出すために通信アルゴリズムの改良を行う。(1) 小さいメッセージを効率よく転送するためにMPIライブラリではなくlow levelのIBverbs APIを用い、(2) 混雑に巻き込まれた場合の影響を低減させるために複数のRDMA転送を同時実行し、(3) 2系統あるInfiniBandネットワークを活用して、衝突が少なくなるように各相手ノードとの通信をそれぞれのネットワークに動的に振り分ける、という手法を用いる。その結果スケーラビリティは大きく向上し、256ノード使用時に最大4.8TFLOPSの性能を達成することができた。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 計画に挙げた３項目のうち、自動チューニングとGPU間通信関連についてはほぼ予定通り達成された。残りの１つとしてNVIDIAのKepler世代GPUの新機能を使ったより柔軟なGPUプログラミング手法については残念ながら遅れている。Keplerから新機能が搭載されることは本研究の応募段階から知られていたが、NVIDIAの製品出荷スケジュールが予定より遅れたことが原因である。またKepler世代GPUは実際にはK10とK20の二つのシリーズに分かれており、前者は６月、後者は１１月に発表された。これまでKeplerの新機能と呼ばれていた機能のほとんどは後者のK20から実装されていた。K20の製品入手にも時間がかかるため、平成２４年度中に十分な研究成果を挙げることが困難と判断し、研究期間の延長を申請した。
Strategy for Future Research Activity	最終年度は前年度までに達成することができなかったK20を使った新機能に関連する研究を行う。より性能が高いGeForce Titanの利用も検討している。
Expenditure Plans for the Next FY Research Funding	前年度の未使用額を次年度の計画のために使用する。具体的にはGPUデバイスとしてK20またはGeForce Titan、またはその両方を購入する。また金額的に可能であれば成果発表ための旅費としても使用する。

Research Products
(4 results)

All 2012

All Journal Article (2 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

[Journal Article] GPU スパコンTSUBAME 2.0 によるフェーズフィールド法を用いた2 petaflops樹枝状凝固成長計算2012
- Author(s)
  下川辺隆史, 青木尊之, 高木知弘, 山中晃徳, 額田彰
- Journal Title
  
  第17回計算工学講演会論文集
  
  Volume: Vol. 17 Pages: 1-4
[Journal Article] Scalable Multi-GPU 3-D FFT for TSUBAME 2.0 Supercomputer2012
- Author(s)
  Akira Nukada, Kento Sato and Satoshi Matsuoka
- Journal Title
  
  Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12)
  
  Volume: - Pages: 1-10
- Peer Reviewed
[Presentation] Performance of 3-D FFT using Multiple GPUs with CUDA 42012
- Author(s)
  Akira Nukada
- Organizer
  NVIDIA GPU Technology Conference 2012
- Place of Presentation
  San Jose, CA, USA
- Year and Date
  20120514-20120517
[Presentation] CUDA版自動チューニング手法2012
- Author(s)
  額田彰
- Organizer
  GPU Technology Conference Japan 2012
- Place of Presentation
  六本木
- Year and Date
  2012-07-26

2012 Fiscal Year Research-status Report

高度なＧＰＵプログラミング手法の開拓

Principal Investigator

額田 彰 東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)

Current Status of Research Progress

Reason

Research Products

[Journal Article] GPU スパコンTSUBAME 2.0 によるフェーズフィールド法を用いた2 petaflops樹枝状凝固成長計算2012

Author(s)

Journal Title

[Journal Article] Scalable Multi-GPU 3-D FFT for TSUBAME 2.0 Supercomputer2012

Author(s)

Journal Title

[Presentation] Performance of 3-D FFT using Multiple GPUs with CUDA 42012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] CUDA版自動チューニング手法2012

Author(s)

Organizer

Place of Presentation

Year and Date

額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)