多様化するGPU環境に適した開発手法の探求と実アプリケーションへの展開

Research Project

Project/Area Number	23K11123
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 60090:High performance computing-related
Research Institution	The University of Tokyo
Principal Investigator	三木洋平東京大学, 情報基盤センター, 助教 (70734375)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	GPUを用いた演算加速 / 高性能計算 / 計算科学 / 性能最適化 / ベンダーロックイン
Outline of Research at the Start	近年導入されるスーパーコンピュータには，高い演算性能と少ない消費電力量という相反する需要を両立するため，演算加速器としてGPUが搭載されることが多くなってきた．GPUスパコンを最大限活用するためには，GPUの高い演算性能を引き出すことのできるソフトウェアの存在が必要不可欠である．また，GPU提供ベンダーについても多様化が進みつつあり，同時にソフトウェア開発環境の多様化も進行している．本研究では多様化するGPU環境に対応できる開発・性能最適化手法の確立と実アプリケーションへの展開を目指す．
Outline of Annual Research Achievements	主要なGPUベンダーであるNVIDIA，AMD，Intelの3社全てのGPUに対応し，かつ十分な性能を発揮するコードを実装できる開発環境を調べるために，各社がサポートするプログラミングモデルであるCUDA，HIP，SYCLを用いて直接法に基づく重力多体計算コードを実装・最適化した．CUDAおよびHIPを用いた実装のNVIDIA H100 および AMD MI210 上での性能評価を行い，NVIDIA Hopper世代およびAMD CDNA 2世代のGPU向けの重力多体計算コードの性能最適化方針を明らかにした．また，性能評価においてはGPUの動作周波数，温度や消費電力についても取得し，詳細な性能解析や電力性能の評価も行った．こうした結果は高性能計算分野の研究会SWoPP 2023などにおいて発表済みである．SYCLを用いた実装がNVIDIA H100 および AMD MI210 上で動作することも確認済みであり，CUDAやHIPを用いた実装よりも高性能になる場合があると分かった．また，CUDA/HIP/SYCLよりも簡易なGPUプログラミング手法としてOpenACCやOpenMP のターゲット指示文といった指示文を用いた実装も広く用いられている．しかし，OpenACCは実質的にNVIDIA製GPU専用の指示文となりつつある一方で，NVIDIA/AMD/Intel全社がサポートするOpenMP についてはOpenACC に比べて機能が不足しており，両者は一長一短の関係にある．本研究ではC/C++言語のプリプロセッサを活用することでOpenACCとOpenMPのターゲット指示文を統合して使用できるライブラリを試作した．現在は機能検証および性能評価を行いつつ，公開に向けての準備を進めている．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 当初の計画では，HIPを用いた実装とSYCLの調査を進めつつ，SYCLの実装にも着手することとしていた．SYCLの調査および初期実装の評価結果から，SYCLを用いた実装によってNVIDIA/AMD/Intel製GPU全てにおいて十分な性能が得られる見込みが立った．この内容だけで計画通りに進捗していると言える．こうしたGPUプログラミングに関する研究を進める中で，OpenACCとOpenMPのターゲット指示文という異なる指示文を，プリプロセッサマクロを用いたライブラリを解することで単一コードから使い分けられると着想した．そこでこのライブラリの試作と簡単な性能評価を行い，意図した機能が実現できていることが確かめられた．OpenMP実装については2024年度後半に着手する計画であったが，より機能を強化したうえで性能評価に着手できたことから，当初計画よりも進捗していると評価できる．
Strategy for Future Research Activity	2023年度末にIntel製のHPC向けGPUが入手できたので，計画どおり性能評価を進め，結果を高性能計算分野の国際会議で発表することを目指す．また，2023年度に得られた知見を活かした重力ツリーコードのSYCL実装にも着手しており，2024年度中に実装の完了および性能評価を行うことを目指す．これは当初計画の予定通りの進行度合いである．またOpenACCとOpenMPのターゲット指示文を統合して使用できるライブラリの機能検証および性能評価を進め，国際会議における発表およびライブラリの公開を目指す．