• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

高度なGPUプログラミング手法の開拓

Research Project

Project/Area Number 23650012
Research InstitutionTokyo Institute of Technology

Principal Investigator

額田 彰  東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)

KeywordsGPGPU / CUDA / 自動チューニング / GPU間転送
Research Abstract

NVIDIA CUDAが登場して以来、これまで多くのアプリケーションがGPUによって高速化されてきた。その結果として現在GPUのメモリ容量の制約が一番大きな障害となっている。ホストメモリに大部分のデータを置き、適宜GPUにデータを転送する方法も可能ではあるが、PCI-Expressの帯域の限界による性能低下は避けられない。この対策として複数のGPUを使った計算が行われるようになってきた。特にGPUを搭載する計算ノードを多数、高速なInfiniBandネットワークで接続するGPUクラスタが注目されている。
GPUクラスタを用いた計算対象として、特にGPU間でのデータ転送量が多い高速フーリエ変換(FFT)を用いた。FFTでは全GPU間での全対全通信が必要になるという最も難しいタイプである。Fat-TreeトポロジーのInfiniBandネットワークの場合、理論的な通信バンド幅はノード数に比例するため、FFTの計算性能もノード数に比例することが期待される。しかしながら実際に計測すると、特にTSUBAME2.0のような大規模なネットワークではノード数が増加するにつれて効率低下が見られることが多い。
このような状況下でも安定した性能を出すために通信アルゴリズムの改良を行う。(1) 小さいメッセージを効率よく転送するためにMPIライブラリではなくlow levelのIBverbs APIを用い、(2) 混雑に巻き込まれた場合の影響を低減させるために複数のRDMA転送を同時実行し、(3) 2系統あるInfiniBandネットワークを活用して、衝突が少なくなるように各相手ノードとの通信をそれぞれのネットワークに動的に振り分ける、という手法を用いる。その結果スケーラビリティは大きく向上し、256ノード使用時に最大4.8TFLOPSの性能を達成することができた。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

計画に挙げた3項目のうち、自動チューニングとGPU間通信関連についてはほぼ予定通り達成された。残りの1つとしてNVIDIAのKepler世代GPUの新機能を使ったより柔軟なGPUプログラミング手法については残念ながら遅れている。Keplerから新機能が搭載されることは本研究の応募段階から知られていたが、NVIDIAの製品出荷スケジュールが予定より遅れたことが原因である。またKepler世代GPUは実際にはK10とK20の二つのシリーズに分かれており、前者は6月、後者は11月に発表された。これまでKeplerの新機能と呼ばれていた機能のほとんどは後者のK20から実装されていた。K20の製品入手にも時間がかかるため、平成24年度中に十分な研究成果を挙げることが困難と判断し、研究期間の延長を申請した。

Strategy for Future Research Activity

最終年度は前年度までに達成することができなかったK20を使った新機能に関連する研究を行う。より性能が高いGeForce Titanの利用も検討している。

Expenditure Plans for the Next FY Research Funding

前年度の未使用額を次年度の計画のために使用する。具体的にはGPUデバイスとしてK20またはGeForce Titan、またはその両方を購入する。また金額的に可能であれば成果発表ための旅費としても使用する。

  • Research Products

    (4 results)

All 2012

All Journal Article (2 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

  • [Journal Article] GPU スパコンTSUBAME 2.0 によるフェーズフィールド法を用いた2 petaflops樹枝状凝固成長計算2012

    • Author(s)
      下川辺隆史, 青木尊之, 高木知弘, 山中晃徳, 額田彰
    • Journal Title

      第17回計算工学講演会論文集

      Volume: Vol. 17 Pages: 1-4

  • [Journal Article] Scalable Multi-GPU 3-D FFT for TSUBAME 2.0 Supercomputer2012

    • Author(s)
      Akira Nukada, Kento Sato and Satoshi Matsuoka
    • Journal Title

      Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12)

      Volume: - Pages: 1-10

    • Peer Reviewed
  • [Presentation] Performance of 3-D FFT using Multiple GPUs with CUDA 42012

    • Author(s)
      Akira Nukada
    • Organizer
      NVIDIA GPU Technology Conference 2012
    • Place of Presentation
      San Jose, CA, USA
    • Year and Date
      20120514-20120517
  • [Presentation] CUDA版自動チューニング手法2012

    • Author(s)
      額田彰
    • Organizer
      GPU Technology Conference Japan 2012
    • Place of Presentation
      六本木
    • Year and Date
      2012-07-26

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi