研究課題/領域番号 |
15K12008
|
研究機関 | 大阪大学 |
研究代表者 |
伊野 文彦 大阪大学, 情報科学研究科, 准教授 (90346172)
|
研究分担者 |
水谷 泰治 大阪工業大学, 情報科学部, 准教授 (10411414)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 高性能計算 / CUDA / MPI / GPU / 並列処理 |
研究実績の概要 |
本研究の目的は,グラフィクスハードウェアGPU(Graphics Processing Unit)における遅延隠蔽指向の記述モデルを,分散メモリ型並列計算機上に展開し,そのプログラミング労力を軽減することである.そのために,GPUの統合開発環境としてもっとも普及しているCUDA(Compute Unified Device Architecture)を分散メモリ型並列計算機向けに拡張し,その記述のみでノード間通信を伴う超並列処理を実現することを目指している.
分散CUDAの実現手法として,昨年度までに拡張方式と再利用方式の2つの手法を検討し,再利用方式を採用することを決定した.平成28年度は,再利用方式の制約を緩和するために,多次元のデータ分割手法を確立した.具体的には,単一ノード単一GPU向けのCUDAプログラムが与えられたときに,その簡易実行により,あらかじめGPUに転送すべきデータ領域を推定し,単一ノード複数GPU向けに多次元のデータ分割を施す.行列積を解くCUDAプログラムに,このデータ分割手法を適用した結果,482 GBのメモリ空間を必要とする大規模行列を2台のGPU(総メモリ12 GB)上で処理できた.データ分割を必要としない小規模行列に対して得られる最大性能と比較して,このときの実効性能を28%の低下に抑えた.また,これまでの1次元分割と比べて,多次元分割は28倍の大きさの行列を処理できるが,分割のためのインデックス計算が全体性能を低下させることが分かった.
さらに,最終年度の評価に向けて,ステンシル計算として姫野ベンチマークを取り上げ,100 GBのメモリ領域を必要とするデータに対し,1台のGPU(総メモリ6 GB)上でパイプライン処理する実装を開発した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
分散メモリ型並列計算機のためのデータ分割手法を確立できているが,その自動化のためのランタイム開発が未完であり,プログラミング労力の削減にまで至っていない.ただし,最終年度に予定していた評価プログラムを先行して開発していて,前者の遅れを後者で補完できている.
|
今後の研究の推進方策 |
当初の目的,すなわち遅延隠蔽指向の記述モデルを分散メモリ型並列計算機上に展開することの有用性を明らかにすべく,最終年度の計画に取り組みたい.そのためには,自動化のためのランタイム開発の遅れに備えておく必要があり,分散メモリ型並列計算機上で遅延隠蔽指向の記述モデルを用いたときの性能を予測し検証することを並行して推進していく.
|
次年度使用額が生じた理由 |
最終年度にまとめて執行した方が効率よく予算を使えるため,端数を残した.
|
次年度使用額の使用計画 |
最終成果を発表するための旅費として執行する予定である.
|