2012 Fiscal Year Research-status Report
Project/Area Number |
23650012
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
額田 彰 東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)
|
Keywords | GPGPU / CUDA / 自動チューニング / GPU間転送 |
Research Abstract |
NVIDIA CUDAが登場して以来、これまで多くのアプリケーションがGPUによって高速化されてきた。その結果として現在GPUのメモリ容量の制約が一番大きな障害となっている。ホストメモリに大部分のデータを置き、適宜GPUにデータを転送する方法も可能ではあるが、PCI-Expressの帯域の限界による性能低下は避けられない。この対策として複数のGPUを使った計算が行われるようになってきた。特にGPUを搭載する計算ノードを多数、高速なInfiniBandネットワークで接続するGPUクラスタが注目されている。 GPUクラスタを用いた計算対象として、特にGPU間でのデータ転送量が多い高速フーリエ変換(FFT)を用いた。FFTでは全GPU間での全対全通信が必要になるという最も難しいタイプである。Fat-TreeトポロジーのInfiniBandネットワークの場合、理論的な通信バンド幅はノード数に比例するため、FFTの計算性能もノード数に比例することが期待される。しかしながら実際に計測すると、特にTSUBAME2.0のような大規模なネットワークではノード数が増加するにつれて効率低下が見られることが多い。 このような状況下でも安定した性能を出すために通信アルゴリズムの改良を行う。(1) 小さいメッセージを効率よく転送するためにMPIライブラリではなくlow levelのIBverbs APIを用い、(2) 混雑に巻き込まれた場合の影響を低減させるために複数のRDMA転送を同時実行し、(3) 2系統あるInfiniBandネットワークを活用して、衝突が少なくなるように各相手ノードとの通信をそれぞれのネットワークに動的に振り分ける、という手法を用いる。その結果スケーラビリティは大きく向上し、256ノード使用時に最大4.8TFLOPSの性能を達成することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
計画に挙げた3項目のうち、自動チューニングとGPU間通信関連についてはほぼ予定通り達成された。残りの1つとしてNVIDIAのKepler世代GPUの新機能を使ったより柔軟なGPUプログラミング手法については残念ながら遅れている。Keplerから新機能が搭載されることは本研究の応募段階から知られていたが、NVIDIAの製品出荷スケジュールが予定より遅れたことが原因である。またKepler世代GPUは実際にはK10とK20の二つのシリーズに分かれており、前者は6月、後者は11月に発表された。これまでKeplerの新機能と呼ばれていた機能のほとんどは後者のK20から実装されていた。K20の製品入手にも時間がかかるため、平成24年度中に十分な研究成果を挙げることが困難と判断し、研究期間の延長を申請した。
|
Strategy for Future Research Activity |
最終年度は前年度までに達成することができなかったK20を使った新機能に関連する研究を行う。より性能が高いGeForce Titanの利用も検討している。
|
Expenditure Plans for the Next FY Research Funding |
前年度の未使用額を次年度の計画のために使用する。具体的にはGPUデバイスとしてK20またはGeForce Titan、またはその両方を購入する。また金額的に可能であれば成果発表ための旅費としても使用する。
|