2011 Fiscal Year Research-status Report

高度なＧＰＵプログラミング手法の開拓

Research Project

Project/Area Number	23650012
Research Institution	Tokyo Institute of Technology
Principal Investigator	額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)
Project Period (FY)	2011-04-28 – 2013-03-31
Keywords	GPGPU / CUDA / 自動チューニング / GPU間転送
Research Abstract	まずGPUを対象とした自動チューニング手法に着手した. GPUの場合, コードの実装によって性能が何倍にも変動することが多く, またGPU製品・アーキテクチャの世代交代も非常に速いため自動チューニング手法は重要な役割を占める. NVIDIAのCUDAで自動チューニングを行うためには動的にコードを生成し, ファイルに保存し, nvccでコンパイルし, モジュールとしてロードし, 実行するという処理が通常であるが, これらの処理は全てCPU側で行われるため時間がかかる. 中でもコンパイル時の最適化に要する時間が長い. そこでFFTの計算を対象にして, メモリ上に, より低レベルなCUDA PTX言語でコードを生成し, メモリ上でコンパイルすることで大幅な時間短縮を実現した. CUDA PTXは中間言語であり, ループ不変数の検出などの通常コンパイラが担当する最適化を自ら適用しておく必要があるが, 一番難しいレジスタの最適化は行う必要がないため, 対象とする計算内容を熟知してさえいれば容易にコード生成が可能である. もう一つ重要となりつつある機能はGPU間のデータ転送である. 大規模なアプリケーションになるとＧＰＵのメモリ容量では不足するため, 複数ＧＰＵを搭載するシステムや複数のノードを使用する必要がある. CUDAではバージョン4.0からPCI-Expressネットワークを介したGPU間の直接転送や, InfiniBand HCAとの協調動作などがサポートされ, 複数GPU化の効率が向上した. しかしながら多数のGPUを搭載する場合にはPCI-Expressネットワークのトポロジーの制約が大きく, また複数ノードの場合にはホスト側の特にメモリバスへの負荷が大きく, その辺りがボトルネックになっている.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason CUDA 4.0で複数GPU対応が強化されたため, それらの検証を計画に追加した. また本研究によりCUDAに関連する各種コード最適化技法も見出すことができた. 一方, 計画にあった中でメモリのポーリングによるＧＰＵスレッド制御については海外のグループによって発表されたため計画から除外した.
Strategy for Future Research Activity	特に重要度の高い複数GPU関連を中心に実施する. ホスト側にボトルネックがある状況において自動チューニング的手法により最大の性能を引き出すことを目標とする. またNVIDIA社製の次世代Keplerコア搭載GPUの新機能について検証し, 新たなＧＰＵ活用手法を模索する.
Expenditure Plans for the Next FY Research Funding	当初は本年度に購入予定であったNVIDIA社製の次世代GPUアーキテクチャであるKeplerコア搭載製品は出荷が遅れたため次年度に購入する. ハイエンドのGPUを複数個搭載するシステムを対象とするため次年度の物品費の大半をこれに充てる必要がある.

Research Products
(6 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (5 results)

[Journal Article] スーパーコンピュータTSUBAME 2.0 における Linpack 性能1 ペタフロップス超の達成2011
- Author(s)
  遠藤敏夫，額田彰，松岡聡
- Journal Title
  
  情報処理学会論文誌コンピューティングシステム
  
  Volume: Vol.4, No. 4 Pages: 169--179
- Peer Reviewed
[Presentation] High Performance 3-D FFT using multiple CUDA GPUs2012
- Author(s)
  Akira Nukada, Yutaka Maruyama, Satoshi Matsuoka
- Organizer
  Fifth Workshop on General Purpose Processing using Graphics Processing Units (GPGPU-5)
- Place of Presentation
  London, UK
- Year and Date
  March 3rd, 2012
[Presentation] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011
- Author(s)
  Takashi Shimokawabe, Takayuki Aoki, Tomohiro Takaki, Akinori Yamanaka, Akira Nukada, Toshio Endo, Naoya Maruyama, and Satoshi Matsuoka
- Organizer
  2011 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’11)
- Place of Presentation
  Seattle, WA, USA
- Year and Date
  November 15th, 2011
[Presentation] NVCR: A Transparent Checkpoint-Restart Library for NVIDIA CUDA2011
- Author(s)
  Akira Nukada, Hiroyuki Takizawa, Satoshi Matsuoka
- Organizer
  20th Heterogeneity in Computing Workshop
- Place of Presentation
  Anchorage, AK, USA
- Year and Date
  May 16th 2011
[Presentation] Fast Fourier Transform for AMD GPUs2011
- Author(s)
  Akira Nukada
- Organizer
  AMD Fusion Developer Summit 2011
- Place of Presentation
  Bellevue, WA, USA
- Year and Date
  June 15th, 2011
[Presentation] Hamming Color Code for Dense and Robust One-shot 3D Scanning2011
- Author(s)
  Shuntaro Yamazaki, Akira Nukada, Masaaki Mochimaru
- Organizer
  2011 British Machine Vision Conference
- Place of Presentation
  Dundee, Scotland
- Year and Date
  August 30th, 2011

2011 Fiscal Year Research-status Report

高度なＧＰＵプログラミング手法の開拓

Principal Investigator

額田 彰 東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)

Current Status of Research Progress

Reason

Research Products

[Journal Article] スーパーコンピュータTSUBAME 2.0 における Linpack 性能1 ペタフロップス超の達成2011

Author(s)

Journal Title

[Presentation] High Performance 3-D FFT using multiple CUDA GPUs2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] NVCR: A Transparent Checkpoint-Restart Library for NVIDIA CUDA2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Fast Fourier Transform for AMD GPUs2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Hamming Color Code for Dense and Robust One-shot 3D Scanning2011

Author(s)

Organizer

Place of Presentation

Year and Date

額田彰東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)