実アプリケーションの時空間ブロッキングによる高速化に関する研究
Project/Area Number |
22K17898
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | Nagoya University |
Principal Investigator |
星野 哲也 名古屋大学, 情報基盤センター, 准教授 (40775946)
|
Project Period (FY) |
2022-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
|
Keywords | 高性能計算 / テンポラルブロッキング / 性能モデル / ステンシル計算 |
Outline of Research at the Start |
スーパーコンピュータに搭載される最新世代のCPUは大きな共有キャッシュを有し、これを効率的に利用する最適化手法として知られる時空間ブロッキングは、科学・工学分野のシミュレーションで頻出するステンシル計算を高速化するための手法である。しかし時空間ブロッキングは煩雑なプログラミングを要求するため、実アプリケーションへの応用は進んでいない。本研究課題では、比較的簡単なコード変換によって実現可能ながら、大容量の共有キャッシュメモリを用いることで高効率実行が可能なoverlapped方式の時空間ブロッキング手法に着目し、様々なCPUにおける性能モデリング及び実アプリケーションでの有効性の検証を行う。
|
Outline of Annual Research Achievements |
本年度は、Intelの最新プロセッサであり、Intel製品として初めてHigh Bandwidth Memory(HBM)を搭載したIntel Xeon Sapphire Rapidsを用い、有効なテンポラルブロッキング手法を検討した。テンポラルブロッキング手法は、従来メモリ性能に律速されるステンシル計算を、空間ループだけでなく時間ループをも計算の依存関係を考慮しながらブロック化し、キャッシュ効率を高める手法であるため、元より高性能でキャッシュとの性能差が小さいHBMメモリを採用するプロセッサでは、本手法適用による性能向上がより困難であることがわかった。特に、Intel Xeon Sapphire Rapidsではコア間を接続するメッシュのバンド幅に性能が律速されるため、本研究課題の提案手法である、大きな共有キャッシュを利用したテンポラルブロッキング手法は本質的に適していないことが明らかとなった。Intel Xeon Sapphire Rapidsは各コアに独立のL2キャッシュを備えるため、独立なL2キャッシュを効率良く利用する手法を継続して研究する予定である。 本研究課題の研究期間全体を通じて、 1. DDRメモリを使用した従来型のマルチコアCPUにおいては、共有のラストレベルキャッシュを用いたテンポラルブロッキングが効果的であること 2. ステンシル計算は複数点を参照し一点に計算結果を書き込むという演算の依存関係がある都合上、A64FXのような相対的に計算命令のレイテンシが大きいプロセッサではパイプラインを埋めきれず、従って命令レイテンシやプログラムのパイプライン並列性や必要レジスタ数を性能モデルに入れ込む必要があること 3. Sapphire Rapidsのようにコア間のバンド幅を考慮すべきプロセッサがあること が明らかとなった。新たに明らかになった点を踏まえ研究を継続する。
|
Report
(2 results)
Research Products
(8 results)