2018 Fiscal Year Annual Research Report
Research on Integration of Communication and Computation by Tightly Coupled Accelerators
Project/Area Number |
15K00166
|
Research Institution | The University of Tokyo |
Principal Investigator |
塙 敏博 東京大学, 情報基盤センター, 准教授 (30308283)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 演算と通信の融合 / GPUクラスタ / FPGA / OpenCL / 高性能インタコネクト |
Outline of Annual Research Achievements |
GPUに代表される演算加速装置を搭載したクラスタにおいて,演算加速装置間の直接通信を可能にする密結合演算加速機構TCAアーキテクチャを提案し,特に低遅延通信の効果によりStrong-scalingに有効であることを示してきた。これまでのFPGAによる通信機構に加えて、柔軟に演算機能を融合することで,高速化,高効率化を目指している。近年OpenCLなどのプログラムからFPGA向けに回路を生成することが容易になっている。そこで本研究では,指示文によりプログラム中のオフロード部分を指定し,FPGA論理を生成し,高速な通信エンジンに対して動的に計算部分を組み込むことにより,通信と計算の高度な融合を実現する。 これまでにArria10 FPGA搭載PCIeボードを用いて,OpenCLによる疎行列ベクトル積,階層型行列ベクトル積や,階層型行列の生成,ソートアルゴリズムなどに適用を試みた。その結果,OpenCLからのコンパイルに関して基本的に容易に実現はできるが,ソフトウェアとしての最適化技術とは全く異なる最適化が必要であり,特にデータの流れを意識してOpenCLのカーネルを分割しパイプライン処理を記述する,といった実装上の工夫が必要であることがわかった。また,これらの最適化は従来のコンパイラ技術では到底達成できるものではなく,ライブラリやマクロなどを援用する他ないと考える。 一方,使用したボードではOpenCLの記述内容によっては回路合成ができず不具合を解消することができなかった。HBM2メモリを持つ最新Stratix10MX 搭載ボード,さらにはベンダーの異なるVirtex UltraScale+搭載ボードを導入し,引き続き,基盤(B)「再構成可能システムとGPUによる複合型高性能計算プラットフォーム」において知見を活かしていく。
|