• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Research-status Report

高度なGPUプログラミング手法の開拓

Research Project

Project/Area Number 23650012
Research InstitutionTokyo Institute of Technology

Principal Investigator

額田 彰  東京工業大学, 学術国際情報センター, 産学官連携研究員 (40545688)

Project Period (FY) 2011-04-28 – 2013-03-31
KeywordsGPGPU / CUDA / 自動チューニング / GPU間転送
Research Abstract

まずGPUを対象とした自動チューニング手法に着手した. GPUの場合, コードの実装によって性能が何倍にも変動することが多く, またGPU製品・アーキテクチャの世代交代も非常に速いため自動チューニング手法は重要な役割を占める. NVIDIAのCUDAで自動チューニングを行うためには動的にコードを生成し, ファイルに保存し, nvccでコンパイルし, モジュールとしてロードし, 実行するという処理が通常であるが, これらの処理は全てCPU側で行われるため時間がかかる. 中でもコンパイル時の最適化に要する時間が長い. そこでFFTの計算を対象にして, メモリ上に, より低レベルなCUDA PTX言語でコードを生成し, メモリ上でコンパイルすることで大幅な時間短縮を実現した. CUDA PTXは中間言語であり, ループ不変数の検出などの通常コンパイラが担当する最適化を自ら適用しておく必要があるが, 一番難しいレジスタの最適化は行う必要がないため, 対象とする計算内容を熟知してさえいれば容易にコード生成が可能である. もう一つ重要となりつつある機能はGPU間のデータ転送である. 大規模なアプリケーションになるとGPUのメモリ容量では不足するため, 複数GPUを搭載するシステムや複数のノードを使用する必要がある. CUDAではバージョン4.0からPCI-Expressネットワークを介したGPU間の直接転送や, InfiniBand HCAとの協調動作などがサポートされ, 複数GPU化の効率が向上した. しかしながら多数のGPUを搭載する場合にはPCI-Expressネットワークのトポロジーの制約が大きく, また複数ノードの場合にはホスト側の特にメモリバスへの負荷が大きく, その辺りがボトルネックになっている.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

CUDA 4.0で複数GPU対応が強化されたため, それらの検証を計画に追加した. また本研究によりCUDAに関連する各種コード最適化技法も見出すことができた. 一方, 計画にあった中でメモリのポーリングによるGPUスレッド制御については海外のグループによって発表されたため計画から除外した.

Strategy for Future Research Activity

特に重要度の高い複数GPU関連を中心に実施する. ホスト側にボトルネックがある状況において自動チューニング的手法により最大の性能を引き出すことを目標とする. またNVIDIA社製の次世代Keplerコア搭載GPUの新機能について検証し, 新たなGPU活用手法を模索する.

Expenditure Plans for the Next FY Research Funding

当初は本年度に購入予定であったNVIDIA社製の次世代GPUアーキテクチャであるKeplerコア搭載製品は出荷が遅れたため次年度に購入する. ハイエンドのGPUを複数個搭載するシステムを対象とするため次年度の物品費の大半をこれに充てる必要がある.

  • Research Products

    (6 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (5 results)

  • [Journal Article] スーパーコンピュータTSUBAME 2.0 における Linpack 性能1 ペタフロップス超の達成2011

    • Author(s)
      遠藤 敏夫,額田 彰,松岡 聡
    • Journal Title

      情報処理学会論文誌コンピューティングシステム

      Volume: Vol.4, No. 4 Pages: 169--179

    • Peer Reviewed
  • [Presentation] High Performance 3-D FFT using multiple CUDA GPUs2012

    • Author(s)
      Akira Nukada, Yutaka Maruyama, Satoshi Matsuoka
    • Organizer
      Fifth Workshop on General Purpose Processing using Graphics Processing Units (GPGPU-5)
    • Place of Presentation
      London, UK
    • Year and Date
      March 3rd, 2012
  • [Presentation] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011

    • Author(s)
      Takashi Shimokawabe, Takayuki Aoki, Tomohiro Takaki, Akinori Yamanaka, Akira Nukada, Toshio Endo, Naoya Maruyama, and Satoshi Matsuoka
    • Organizer
      2011 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’11)
    • Place of Presentation
      Seattle, WA, USA
    • Year and Date
      November 15th, 2011
  • [Presentation] NVCR: A Transparent Checkpoint-Restart Library for NVIDIA CUDA2011

    • Author(s)
      Akira Nukada, Hiroyuki Takizawa, Satoshi Matsuoka
    • Organizer
      20th Heterogeneity in Computing Workshop
    • Place of Presentation
      Anchorage, AK, USA
    • Year and Date
      May 16th 2011
  • [Presentation] Fast Fourier Transform for AMD GPUs2011

    • Author(s)
      Akira Nukada
    • Organizer
      AMD Fusion Developer Summit 2011
    • Place of Presentation
      Bellevue, WA, USA
    • Year and Date
      June 15th, 2011
  • [Presentation] Hamming Color Code for Dense and Robust One-shot 3D Scanning2011

    • Author(s)
      Shuntaro Yamazaki, Akira Nukada, Masaaki Mochimaru
    • Organizer
      2011 British Machine Vision Conference
    • Place of Presentation
      Dundee, Scotland
    • Year and Date
      August 30th, 2011

URL: 

Published: 2013-07-10  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi