2014 年度実施状況報告書

GPU向けOpenMP処理系の開発

研究課題

研究課題/領域番号	25330143
研究機関	電気通信大学
研究代表者	本多弘樹電気通信大学, その他の研究科, 教授 (20199574)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	高性能コンピューティング / 並列処理 / GPU / OpenMP
研究実績の概要	本研究課題は，CUDA向けOpenMP処理系の研究成果を発展させ，タスクの最適分割と最適割当，CPU-GPU間/GPU-GPU間データ転送最適化，カーネル関数内最適化などの手法の考案と実装を行い，ユーザがGPUコンピューティングを簡便に利用するためのOpenMP処理系を実現しようと試みるものであり，初年度には，CPUとGPU間のデータ転送の最適化に注力することとし， Memory Copy 方式とZero Copy方式を適宜選択することでデータ転送時間の削減を可能とする方式を提案した．二年目の本年の当初研究計画及び前年度における今後の研究推進方策では，残る二つのタスク分割・割当の最適化，カーネル関数内最適化ついて，パラメータ（ループ回転数，ループボディ計算量・データ量）の同定，テストベッドシステムでの最適パラメータ値の取得，プログラム開先によるパラメータ設定自動化手法の開発に取り組むこととしていた．また，CUDAとOpneMP以外の並列プログラミング環境との連携についても検討することとしていた．これに対し，現状のGPUコンピューティングシステムでは異なる種類のGPUが搭載された複数のコンピュータノードがネットワークを介して接続されている形態が多くなってきているとの認識のもと，タスクの最適分割と最適割当，カーネル関数内最適化に注力することとし，また，対象をCUDAのみではなく昨今注目されているOpenCLも含めて研究を実施した．具体的には，性能の異なるGPUを搭載したノードから構成されるヘテロジニアスなシステムにおいて，それぞれのGPUに割り当てるスレッド数，および，各GPU内でのSMに割り当てるスレッド数を決定する手法について考察を進めた．その結果，カーネル関数内の計算量と各GPU内のPE数から，OpenCLにおけるグローバルワークサイズとローカルワークサイズを算出するモデルを明らかにした．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究課題の目的では，次の点に重点をおくこととしていた． 1.タスク分割・割当の最適化：これまでの研究では，各forallループを一律に一つのタスクとしそれを単一GPUに割当てて並列処理し，その他の部分をCPUで逐次処理していた．これに対し本研究では，各forallループを分割して複数タスクとすることも可能とし，最適な割当先を決定するための手法を明らかにする． 2.データ転送最適化：GPUコンピューティングでは，CPU-GPU間でのデータ転送が性能に大きな影響を及ぼすため，転送データ量の削減，転送回数の削減が求められるが，これまでの研究ではデータをすべて転送することとしていた．本研究では真に必要なデータのみを転送するための最適化手法を明らかにする． 3.カーネル関数内最適化：カーネル関数の実行性能は，使用するブロック数，スレッド数，レジスタ数，メモリ選択，メモリアクセスパターンなどによって大きな影響を受ける．これまでの研究では，これらをデフォルトで設定していたが，本研究ではそれぞれのプログラムに応じて最適な値に設定する手法を明らかにする．これに対し，本年度はタスク分割・割当の最適化とカーネル関数内最適化について取り組んだ．具体的には，異種GPUを搭載したノードからなるヘテロジニアスなシステムにおいて，それぞれのGPUに割り当てるスレッド数，および，各GPU内のSMに割り当てるスレッド数を決定する手法について考察を進めた．その結果，カーネル関数内の計算量と各GPU内のPE数から，OpenCLにおけるグローバルワークサイズとローカルワークサイズを算出するモデルを明らかにし，このモデルを用いた最適化によりプログラム実行時間を最大62%削減できることを確認した．この研究成果は情報処理学会ハイパフォーマンス研究会で発表を行った．以上より，研究は順調に進展していると判断できる．なお，本研究に関連し，修士課程学生が修士学位を取得した．
今後の研究の推進方策	当初の計画通り，これまでの結果をもとに，個々の最適化手法の考案とその評価，手法を実現するソフトウェアモジュールの実装を進める．今後の研究推進の具体的方策は次の通りである． 1.これまで考案した最適化方式とそれを実装したソフトウェアモジュールを，本補助金で構築したGPUテストベッドシステム上でベンチマークプログラムや実アプリケーションプログラムでの有効性の検証を進める． 2.前述の検証をもとに，それぞれの最適化手法において，さらなる最適化の余地がないかも検討を進める． 3.当初計画で対象としていたOpenMPに加えて，現在GPUプログラミングの枠組みとして利用が進んでいるOpenACCでの実装も視野に入れる． 4.各機能の実装については優先順位を決め，進捗が思わしくない場合には，重要な機能の実装に絞るなど対処する．
次年度使用額が生じた理由	消耗品の購入が無かったため．
次年度使用額の使用計画	次年度の消耗品購入に充てる．

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] ヘテロジニアスGPUコンピューティングのためのワークサイズ自動調整手法の提案2015
- 著者名/発表者名
  竹本拓未，和田康孝，近藤正章，本多弘樹
- 学会等名
  第148回ハイパフォーマンスコンピューティング研究発表会
- 発表場所
  大分県別府市花菱ホテル
- 年月日
  2015-03-02 – 2015-03-03