## 科学研究費助成事業

\_ . . \_

研究成果報告書



研究成果の概要(和文):メニーコアプロセッサを対象とした高性能アプリケーションの開発のための要素技術 として、cache-awareなコード生成、SIMD化ループ変換、および計算・通信のパイプライン化を研究した。これ らの要素技術と開発フレームワークを、超音波伝搬解析、PIC法プラズマシミュレーション、各種の線型方程式 ソルバーなどの、実際的な高性能アプリケーションに適用した。その結果、たとえばPIC法プラズマシミュレー ションにおいて、単一プロセッサレベルで従来実装の約8倍の性能向上を、また64ノードの大規模並列計算でマ ルチコアベースのシステムと比べて約10倍の性能向上を達成するなど、研究の有用性を示す重要な成果を得た。

研究成果の概要(英文):We have pursued the research on three elemental technologies, namely cache-aware code generation, loop transformation for SIMD-vectorization and computation-communication pipelining, for high-performance application development targeting manycore processors. These technologies and our development framework were applied to practical high-performance applications such as supersonic propagation analysis, PIC plasma simulation, and various linear solvers. The importance and effectiveness of our research work were proved by the results of, for example, PIC plasma simulation whose single-processor performance improvement is 8-fold and 64-node performance is 10-times as high as that of a multi-core based system.

研究分野:計算機工学

キーワード: 並列処理 メニーコアプロセッサ プログラム変換

## 1. 研究開始当初の背景

研究開始当初の代表的メニーコアプロセッ サであった Xeon Phi KNC は、GPGPU など の演算加速機構とは異なり、従来型のプロセ ッサと同じ命令セットアーキテクチャを有す ることで、これまでに開発された高性能アプ リケーションプログラムが(ほぼ)そのまま 実行可能であるという、有用な特質を備えて いる。しかしこのプログラム可搬性は、従来 型のプロセッサで得られていた実行効率(実 効性能とピーク性能との比)が維持される性 能可搬性を意味するものではなく、実際ほと んどの高性能アプリケーションでは従来型プ ロセッサの数分の1の実行効率しか得られず、 結果的にピーク性能の向上が実効性能の向上 に全く寄与しない状況となっていた。この低 い実効効率の原因は、以下の3つの問題点に あった。

- (1) 演算・メモリバンド幅のギャップ:Xeon Phi KNC のコアあたりメモリバンド幅は 6GB/s 弱、またキャッシュ容量は512KB であり、従来型プロセッサ(たとえば Xeon E5-2600 系列)と比較すると92%の バンド幅と17%の容量となる。また命令 実行機構が単純であるため、特にキャッ シュ容量が小さいことを補うメモリアク セス遅延隠蔽が十分に機能せず、メモリ バンド幅の不足が簡単に顕在化してしま う。
- (2) SIMD 演算機構活用の困難さ:SIMD 演算機構は、少数のストリーム(1次元配列)を対象とした単純で依存関係がない演算ループには大きな効力を発揮するが、多数のストリームや配列要素の間接参照、部分的なループ運搬依存、ループボディ中の条件節など、多くの高性能アプリケーションのカーネルループに見られる比較的低レベルの複雑性に対して無力であり、アーキテクチャやコンパイラの適合性の限界が簡単に露呈してしまう。
- (3) メニーコアノード間通信のバンド幅・遅 延:研究開始時点でのメニーコアプロセッサは、ノード間通信を直接行うための 機構を有しておらず、ホストプロセッサ と呼ばれる従来型プロセッサを経由した 通信とならざるを得ない。したがって演 算性能に見合うノード間通信バンド幅を 得ることは困難であり、また従来型の並 列システムに比べて通信遅延が大きい。

なお研究開始から3年を経過した現在でも、 たとえばKNCの後継であるXeon Phi KNL に関して、(1)の命令実行機構がout-of-order になったことと、(3)のホストプロセッサ経由 の通信が自立型になった以外には、上記の状 況は基本的に変わっていない。また後述する ように、自立型になったことによる通信性能 の改善は、演算性能の向上に見合うものとは なっておらず、(3)の問題は何ら解決していな い。



図 1: 時空間タイリング

2. 研究の目的

本研究では、メニーコアプロセッサでの高性 能計算における前述の問題点、すなわち①演 算・メモリバンド幅のギャップ、②SIMD 演 算機構活用の困難さ、③メニーコアノード間 通信バンド幅・遅延を、アプリケーションコ ードのレベルで回避するために、以下の3つ の高速化要素技法を開発することを目的とし て行った。

- (1) 時間・空間の多重ループの実行順序を変 更する時空間タイリングをベースとした cache-aware コード生成。
- (2) キャッシュの存在を前提とした loopsplitting や strip-mining、およびループ 運搬依存性を持つループをも対象とした、 SIMD 化ループ変換。
- (3) d 次元問題の d 次元分割において、メモ リ空間を連続的に走査しつつ通信遅延を 隠蔽し、かつ通信方向を2×dとする計算・ 通信のパイプライン化。

上記(1)~(3)の要素技法の適用条件やコード 変換法は問題依存性が強いため、局所視点コ ーディングにより記述したプログラムから従 来型のコードを自動生成するフレームワーク とした。

- 3. 研究の方法
- (1) cache-aware コード生成

本項目のベースとなる時空間タイリングは、 図1に示すように走査対象空間をタイルに分 割し、時間発展計算に伴ってタイルを1格子 点だけずらすことにより、各格子点に対する 本来の計算順序を維持しつつ、時刻 t と t+1 の計算対象タイルの共通部分の格子点データ をキャッシュ上で再利用することによって、 参照の時間的局所性を大幅に改善する技法で ある。この技法の有効性は FDTD 法のみなら ず種々のアプリケーションにおいて確認して いるが、本研究以前の我々の知見は主に従来 型プロセッサでの評価に基づくものであり、 メニーコアプロセッサでの有効性については 未知の要素が少なくなかった。特にタイル計 算のスレッド並列化を図に示すように単純な 1次元分割で行っているが、たとえば Xeon

Phi の構成で最低限必要な 60 スレッド、ある いは演算遅延・キャッシュアクセス遅延の隠 蔽のための Hyper-Threading を適用した場 合の 120~240 スレッドの実行では、タイル の多次元分割やタイル単位のスレッド割当な ど、より高度な並列化が必要と予想されたた め、タイルの形状や計算順序についてより高 度な実装を検討した。

```
(2) SIMD 化ループ変換
```

たとえば 3 次元 FDTD 法の空間 3 重ルー プ;

for(t) {

```
for(z) for(y) for(x) {
    BX[z][y][x]-=EY[z][y][x]+...;
    BY[z][y][x]-=...;
    BZ[z][y][x]-=...;
    for(z) for(y) for(x) {
    EX[z][y][x]+=...;
    EY[z][y][x]+=...;
    EZ[z]y][x]+=...;
    EZ[z]y][x]+=...;
    }
}
```

}

のボディには、合計 12本のストリーム (電磁 場ベクトル3次元配列のx方向への連続参照) が存在するが、12本というさほど大きくない 数であってもレジスタの不足(特に配列要素 アドレス計算のための汎用レジスタの不足) などにより、コンパイラによる SIMD 化が阻 害されることが、予備的な調査によって明ら かになっていた。一方 loop-splitting によって 特定の磁場ベクトル成分のみを更新する3つ のループに分割すれば、各ループのストリー ム数が5本に減少してSIMD 化を実施できる が、ループ間で共通に参照される要素に関す る時間的局所性が失われ、SIMD 化の効果が 相殺されることも見出していた。そこで loopsplitting と strip-mining を組み合わせて for(z) for(y){

for(x) BX[z][y][x]+=...; for(x) BY[z][y][x]+=...; for(x) BZ[z][y][x]+=...;

}

のように変換すると、SIMD 化と参照局所性の両立により高い性能が得られる。

上記のような変換は、幾何マルチグリッド 法のガウスザイデルスムーザのループに含ま れる逐次性の分離や、間接参照・条件節など の SIMD 化阻害要因の除去にも有効であり、 種々のアプリケーションに対する共通技術と して適用することを検討した。 (3) 通信遅延の削減・隠蔽

FDTD 法などの実空間上の物理場を扱う数 値シミュレーションにおける領域分割プロセ ス並列化では、部分領域間で境界要素を交換 する通信の遅延隠蔽を、図2左に示すように 境界要素の計算①を先行して行い、その通信 と並行して内部要素の計算②を行うことで実 現する方法がしばしば用いられる。しかしこ の方法は、境界要素の計算対象がメモリ上で 連続しないため参照局所性が劣悪で SIMD 化



図 2: 境界要素交換通信の遅延隠蔽

も困難である。また部分領域の頂点や辺(3次元の場合)の要素を交換するために、3d-1個(3次元では26個)のプロセスとの通信が必要である。

そこで図2右に示すように、部分領域の計 算を①~④の4フェーズ (**d**+2 フェーズ) に 分割し、各々のフェーズが終了した時点で境 界要素の通信を行うことで、計算対象をメモ リ上で連続させるとともに、部分領域の1/d以 上の計算と境界要素通信を並行させて遅延隠 蔽を図る方法を考案している。この方法では、 問題空間の特定の座標軸(図では y 軸)の方 向で隣接するプロセスが red/black pair とな り、この座標軸に関する計算順序をペア間で 反転させることで、あるフェーズで計算され る隣接プロセスが必要とする境界要素の通信 時間を、他のフェーズの計算時間と重ね合わ せることで、通信遅延が隠蔽される。またこ の方法は、異なる座標軸方向の通信をシリア ライズすることで(図のRプロセスでは、底 辺、左右辺、上辺の順)、頂点(および3次元 の場合は辺)の通信が不要となって通信相手 のプロセスが 2d 個に限定されるメリットも ある。

さらにメニーコアプロセッサでは、各コア の性能がマルチコアプロセッサに比べてかな り劣るため、通信回数自体の削減や、通信に 関与するコアの数を適切に定める必要もあり、 重要な研究テーマとして取り組んだ。

4. 研究成果

3 節で示した各研究項目について、以下の 成果が得られた。

(1) cache-aware コード生成

マルチスレッド化された3次元ステンシル 計算の時空間タイリングを対象として、まず 直方体形状のタイルを均等に分割して各スレ ッドに割り当てる方法と、タイル形状や分割 方法の準最適解をパラメータチューニングに より見出す方法を開発した(学会発表2)。こ の研究では、チューニングの対象となるパラ メータ空間が膨大であるだけでなく細かい起 伏が極めて多数存在し、大局的な探索だけで は最適解が見出し難いことを明らかにし、局





所的なモンテカルロ探索を組み合わせること の有効性を示した。

この初期の研究では、タイルを直方体形状 に固定し、マルチスレッド並列化はタイル内 部の計算に限定する方法を用いていた。しか しこの方法では、各スレッドが担当する計算 領域(スレッドタイル)の形状に強い制約が 生じることと、スレッド間の同期がタイムス テップごとに必要であることの、二つの問題 が明らかになった。前者については、スレッ ドタイルの最適形状を定めた上で、それを3 次元的に組み合わせて直方体とは限らないタ イルを構成する方法を考案し、その有効性を 確かめた。また後者については、ダイヤモン ドタイルと呼ばれるタイルサイズをタイムス テップごとに伸縮させ、タイル間の並列性を 利用可能とする方法を評価した(学会発表) (17)

また計算対象空間を分割し、各部分領域に 関する計算を時間方向に連続して行うという 考え方は、マルチグリッド法における新たな 乗法シュワルツ型スムーザの提案の基礎とな っている(雑誌論文②、学会発表①)。この研 究では、n 回の反復スムージングによる収束 性改善が n 倍とはならないという問題を、部 分領域に対する反復スムージングではキャッ シュを活用することでコストが n 倍を大きく 下回ることで解決し、4~5回の反復が有効で あることを示した。またより一般的な cacheaware なコードとして、後述する cacheaware な loop splitting の他、PIC 法で粒子 集合の配列内シフト操作を、in-place かつマ ルチスレッド並列化と SIMD ベクトル化が可 能にする技法を考案し、キャッシュの活用に よりシフト操作の時間が約 2/3 に短縮できる ことを示した(学会発表⑪、⑬)。

(2) SIMD 化ループ変換

PIC 法の主要カーネルループに対して、ル ープ内で共通参照される配列要素を明示的に スカラー変数に置いて間接参照を回避する最 適化と、それに伴うレジスタ割付の困難さの



回避、および条件節の排除を目的として、粒 子配列への参照が1次キャッシュに収まるよ うにした cache-aware な loop splitting (4分 割)を実施した。また分割されたループの一 つでは、粒子の移動特性に着目した効率的か つ cache-aware な on-the-fly sorting を行い、 カーネルループ全体の効率向上を図った。こ のループ変換の効果を、Xeon Phi 5120D (KNC)を用いて評価した結果、約8倍の性能 向上が得られることを確認した(図3,雑誌論 文①、学会発表③、④、⑤)。またこの最適化 と、動的負荷分散を伴うマルチプロセス実装 に必要な粒子集合管理ライブラリとを組み合 わせて、最大 4096 コアの大規模並列シミュ レーションを実施した結果、Xeon Phi 7250 (KNL)から構成されたスーパーコンピュータ Cray XC40 で 67.67×10<sup>9</sup> 粒子/秒という極 めて高い性能を達成するなど、ループ変換が 実用的に優れた効果を発揮することを確認し た(図4、学会発表9、10、11、13、14、15)。

また線型方程式ソルバーのメニーコア対応 実装方式について、マルチグリッド法のガウ スザイデルスムーザ、ICCG 法などクリロフ 部分空間法の IC 分解前処理、および一般的に 用いられる疎行列ベクトル積を対象として、 効率的な SIMD ベクトル化ループの生成法を 検討した。マルチグリッド法については、ガ ウスザイデルスムーザに本質的に内在する逐 次性を持つ近似解更新操作を、他の近似解更 新操作と分離する cache-aware な loop splitting を行うことで、効率的な SIMD ベク トル化が実施できることを示した(雑誌論文 ②、学会発表①)。IC 分解前処理については、 分解処理により得られる前処理行列の非ゼロ 要素が、係数行列の非ゼロ要素に対応する要 素だけでなく、非ゼロ要素を含む一定サイズ のブロック中にも出現することを許容して収 束性を向上しつつ、非ゼロ要素の増加に伴う 演算オーバヘッドを SIMD 機構の活用で抑制 する方法を提案し、KNC を用いた評価により その有効性を実証した(学会発表⑥、⑦)。疎 行列ベクトル積については、種々の行列表現 形式に対する SIMD ベクトル化ループの性能 を評価し、diagonal 形式を対象に cacheaware な tiling を施したものが、一般的な CRS 形式を対象としたものに比べて 3~4 倍 高速であることを、KNL を用いた評価によっ

て示した(学会発表18)。

(3) 通信遅延の削減・隠蔽

3 節(3)で示した境界要素交換通信の遅延隠 蔽法が、時空間タイリングを施したステンシ ル計算や、後述する粒子移送通信回数の削減 を行った PIC 法シミュレーションのように、 通信対象の境界要素の幅が大きい場合に有効 であることを確認した。またこの評価の過程 で、メニーコアプロセッサの1コアの性能が、 ノード間通信のバンド幅を埋めるには不十分 であり、たとえば KNL ではプロセッサあた り8プロセス以上の構成として、多数のコア を MPI 通信に関与させることが必要である ことを明らかにした(学会発表⑩、⑬)。

このようにプロセッサあたりのプロセス数 を大きくすることは、大規模並列計算では一 般に得策ではなく、特に PIC 法シミュレーシ ョンのように種々の通信を行うアプリケーシ ョンでは並列性能に対する影響が大きい。そ こで従来のマルチコア実装でも用いている、 粒子移送について領域境界を拡大する手法を、 メニーコア対応の粒子管理シオブる手法を、 のアルゴリズム考案し、粒子管理ライブラリ への組み込みを実施した結果、従来のマル チコア実装では小さかった大域的縮約通信の オーバヘッドが相対的に大きくなり、このコ スト削減や遅延隠蔽が今後の重要な課題であ ることを示した(学会発表⑩、⑬)。

5. 主な発表論文等

〔雑誌論文〕(計2件)

- <u>Hiroshi Nakashima</u>. Manycore Challenge in Particle-in-Cell Simulation: How to Exploit 1 TFlops Peak Performance for Simulation Codes with Irregular Computation, Computers and Electrical Engineering, 44, 81-94, 2015. 10.1016/j.compeleceng.2015.03.010
- ② Masatoshi Kawai, <u>Takeshi Iwashita</u>, and <u>Hiroshi Nakashima</u>. SIMD Implementation of a Multiplicative Schwarz Smoother for a Multigrid Poisson Solver on an Intel Xeon Phi Coprocessor, LNCS 8969, 57-65, 2015.

〔学会発表〕(計17件)

- Masatoshi Kawai, <u>Takeshi Iwashita</u>, <u>Hiroshi Nakashima</u>. Implementation of a Multiplicative Schwarz Smoother for a Multigrid Poisson Solver on an Intel Xeon Phi Coprocessor, Intl. Mtng. High-Performance Computing for Computational Science (VECPAR), 2014.
- ② Takeshi Minami, Motoharu Hibino, <u>Tasuku Hiraishi</u>, <u>Takeshi Iwashita</u>, <u>Hiroshi Nakashima</u>. Automatic Parameter Tuning of Three-Dimensional Tiled FDTD Kernel, Intl. WS. Automatic

Performance Tuning (IWAPT), 2014.

- ③ <u>Hiroshi Nakashima</u>. PIC Simulation in Many-Core Era. Forum on Advanced Scientific Computing, 2014.
- ④ <u>Hiroshi Nakashima</u>. Manycore Challenge in Kyoto: What We Learned from HPC Programming with KNC, Intl. WS. Enhancing Parallel Scientific Applications with Accelerated HPC (ESAA), 2014.
- (5) <u>Hiroshi Nakashima</u>. Manycore Challenge in Kyoto: What We Learned from HPC Programming with Intel Xeon Phi, Intel HPC Developer Conf., 2014.
- (6) <u>Takeshi Iwashita</u>, Naokazu Takemura, <u>Hiroshi Nakashima</u>. A Fill-In Strategy for Fast ICCG Solver with SIMD Vectorization, Annual Meeting on Advanced Computing System and Infrastructure (ACSI), 2015.
- (7) <u>Takeshi Iwashita</u>, Naokazu Takemura, Akihiro Ida, <u>Hiroshi Nakashima</u>. A New Fill-In Strategy for IC Factorization Preconditioning Considering SIMD Instructions, Proc. Intl. Symp. Parallel and Distributed Processing with Applications (ISPA), 37-44, 2015.
- (8) Yuto Kato, Yoshiharu Omura, Yohei Miyake, Hideyuki Usui, <u>Hiroshi Nakashima</u>. Dependencies of the Generation Process of Whistler-Mode Emissions on Temperature Anisotropy of Energetic Electrons in the Earth's Inner Magnetosphere. URSI-Japan Radio Science Meeting, 2015.
- ⑨ 木倉佳祐,三宅洋平,臼井英之,中島浩. プラズマ粒子シミュレーションのメニー コアプロセッサ向け最適化手法の探求, ハイパフォーマンスコンピューティング と計算科学シンポジウム,2015.
- 1 Hiroshi Nakashima, Keisuke Kikura, Yohei Miyake. Prototype Implementation and Its Fundamental Performance Evaluation of a Manycore-Aware Oh-Help'ed PIC Simulation Code, IPSJ SIG Notes, 2016-HPC-153-15, 1-10, 2016.
- <u>Hiroshi Nakashima</u>. Regularity: A New Important Player in the Game of High-Performance Simulations in Manycore Era, Intl. Conf. Simulation Technology (JSST), 2016.
- 12 Yuto Kato, Yoshiharu Omura, Yohei Miyake, <u>Hiroshi Nakashima</u>, Hideyuki Usui, Keiichiro Fukazawa. Electron Hybrid Code Simulations with OhHelp Load Balancer for the Study of Relativistic Electron Acceleration in Planetary Magnetospheres, Intl. Conf. Simulation Technology (JSST), 2016.
- 13 Hiroshi Nakashima, Yoshiki Summura,

Keisuke Kikura, Yohei Miyake. Large Scale Manycore-Aware PIC Simulation with Efficient Particle Binning, Intl. Parallel and Distributed Processing Symp. (IPDPS), 202-212, 2017.

- ④ 三宅洋平,木倉佳祐,寸村良樹,<u>中島浩</u>. メニーコア型スーパーコンピュータ向け プラズマ粒子シミュレーション高効率実 装の検討,第21回計算工学講演会,2016.
- ⑤ 三宅洋平, 寸村良樹, 木倉佳祐, <u>中島浩</u>. メニーコア型スーパーコンピュータ向け プラズマ粒子計算手法の研究, ハイパフ ォーマンスコンピューティングと計算科 学シンポジウム, 2016.
- 16 深谷猛, <u>岩下武史</u>. マルチコア・メニーコ ア環境における反復型ステンシル計算と 時空間タイリング,日本応用数理学会 2016 年度年会, 2016.
- ⑦ 深谷猛, <u>岩下武史</u>. 反復型ステンシル計算 のマルチコア・メニーコア向け実装に関す る考察,日本応用数理学会「行列・固有値 問題の解法とその応用」研究部会,2016.
- 18 中島浩. メニーコア時代のプログラミング, PC クラスタワークショップ, 2017.
- [その他]
- ホームページ等
- OhHelp ライブラリ公開ページ, http://www.para.media.kyoto-u.ac.jp/ ohhelp/
- 6. 研究組織
- (1)研究代表者
   中島浩(NAKASHIMA HIROSHI)
   京都大学・学術情報メディアセンター・教授
   研究者番号:10243057
- (2)研究分担者
   岩下 武史(IWASHITA TAKESHI)
   北海道大学・情報基盤センター・教授
   研究者番号: 30324685
- (3) 連携研究者
   平石 拓 (HIRAISHI TASUKU)
   京都大学・学術情報メディアセンター・助教
   研究者番号:60528222