2016 Fiscal Year Research-status Report
密結合演算加速機構による通信と演算の融合に関する研究
Project/Area Number |
15K00166
|
Research Institution | The University of Tokyo |
Principal Investigator |
塙 敏博 東京大学, 情報基盤センター, 准教授 (30308283)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 演算と通信の融合 / 密結合演算加速アーキテクチャ / GPUクラスタ / 演算加速装置 / 高性能インタコネクト / FPGA / OpenCL |
Outline of Annual Research Achievements |
GPU (Graphics Processing Unit)に代表される演算加速装置を搭載したクラスタにおいて,複数ノードをまたがる装置間の通信が必須であるが、従来は複数回のデータコピーにより性能低下を引き起こしていた.そこで、演算加速装置間の直接通信を可能にする密結合演算加速機構TCAアーキテクチャを提案し,実証クラスタHA-PACS/TCAにおいて,特に低遅延通信の効果によりStrong-scalingに有効であることを示してきた.これらの知見を元に,加速装置間の通信に柔軟な演算機能を融合することにより,さらなる高速化,高効率化を目指す. これまで開発してきたFPGAによる通信機構PEACH2の通信エンジンに加え,プログラム中に記述されたコードからFPGA論理を生成し、動的に読み込むことによりオフロード実行を可能にすることを目的にする。具体的には、TCAにおける通信と比較的小規模な演算とを融合して、演算加速器間の実効遅延をさらに減らすことを目標とする。最新のFPGAでは、動的再構成により補助的な演算回路を付加することも可能だが、ハードウェア記述言語を用いてインタフェースも含めて設計する必要があり、非常に開発が困難であった。一方で,OpenCL言語で記述したプログラムを回路として動作させることが可能になってきている。 本年度は昨年度に引き続き、Stratix V搭載ボードを用いて,OpenCLによりコードを実装し、評価した。階層型行列ベクトル積などを実装したが、Stratix Vのアーキテクチャ上の限界で、ロジックが有効に活用されない、などの問題点が明らかになった。一方、OpenCLコンパイラの改善により、論理合成前の見積もりでの精度は向上した。 今後は次世代FPGAであるArria10搭載ボードを用いて引き続き評価検証を行うとともに、通信インタフェース部分を設計していく。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
Altera社Stratix V搭載のOpenCL対応FPGA評価ボードを用いて,OpenCLによりいくつかのコードを実装し、評価を行った。しかし、Stratix Vデバイスのアーキテクチャ上、浮動小数点演算器の構造が複雑になることから、事前にどの程度の回路が実装可能であるか、を見極めるのが依然として困難である。また、動的再構成が可能ではあるがStratix Vでは非常に限定的で、ツールのサポートも不十分であり、回路の論理合成自体もスクラッチから行うのとほぼ同じだけの時間がかかる。例えば、ごく簡単なコードであっても、一通りコンパイル(論理合成)するのに3時間程度を要するため、デバッグを行うにも時間がかかる。 そのため、浮動小数点演算への対応や動的再構成が改善された、次世代のArria10搭載ボードへの移行を検討していたが、製品出荷が遅れたため、今年度末になりようやくArria10を搭載したTerrasic社製DE5a-Netボードが入手できた。
|
Strategy for Future Research Activity |
Altera社の次世代FPGA Arria10においては、ロジックの増加だけでなく、内蔵メモリの増加、浮動小数点演算のハードマクロ搭載、動的再構成の高度化など、多くの機能改善が行われている。そこで、Terrasic社製DE5a-Netボードと、NVIDIA社製 Tesla P100を用いて、PEACH-2/3で実施してきたFPGA実装を移植し、性能について評価・検証する。 その上で、ボード上でOpenCLを使うためのBSP (Board Support Package)に対して、PEACH-2/3相当の機能を追加することを検討する。 一方で、OpenACCやOpenMP 4.5のような指示文ベースの言語を元に、デバイスでの論理合成を行えるよう、既存のコンパイラについて調査を行い、フィージビリティについて確認する。
|
Causes of Carryover |
当初予定していたFPGA搭載InfiniBand通信ボードの購入について、発売の遅れや仕様変更に伴い入手を諦めた。その代わりにArria10を搭載した評価ボードとして、40G Ethernet 4ポート搭載のものを使用することにした。 これにより、当初予定よりも安価にボードを購入することができた。
|
Expenditure Plan for Carryover Budget |
40G Ethernet環境を実現するため、スイッチやケーブル等を購入する予定である。 また、来年度出荷される見込みの次世代FPGA Stratix10搭載ボードの入手についても検討する。
|