2015 Fiscal Year Research-status Report
密結合演算加速機構による通信と演算の融合に関する研究
Project/Area Number |
15K00166
|
Research Institution | The University of Tokyo |
Principal Investigator |
塙 敏博 東京大学, 情報基盤センター, 准教授 (30308283)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 演算と通信の融合 / 密結合演算加速機構アーキテクチャ / GPUクラスタ / 演算加速装置 / 高性能インタコネクト / FPGA |
Outline of Annual Research Achievements |
GPU (Graphics Processing Unit)に代表される演算加速装置を搭載したクラスタにおいて,複数ノードをまたがる装置間の通信が必須であるが、従来は複数回のデータコピーにより性能低下を引き起こしていた.そこで、演算加速装置間の直接通信を可能にする密結合演算加速機構TCAアーキテクチャを提案し,実証クラスタHA-PACS/TCAにおいて,特に低遅延通信の効果によりStrong-scalingに有効であることを示してきた.これらの知見を元に,加速装置間の通信に柔軟な演算機能を融合することにより,さらなる高速化,高効率化を目指す. これまで開発してきたFPGAによる通信機構PEACH2の通信エンジンに加え,プログラム中に記述されたコードからFPGA論理を生成し、動的に読み込むことによりオフロード実行を可能にすることを目的にする。具体的には、TCAにおける通信と比較的小規模な演算とを融合して、演算加速器間の実効遅延をさらに減らすことを目標とする。最新のFPGAでは、動的再構成により補助的な演算回路を付加することも可能だが、ハードウェア記述言語を用いてインタフェースも含めて設計する必要があり、非常に開発が困難であった。一方,Altera社のStratix Vシリーズなど最新のFPGAでは,OpenCL言語で記述したプログラムをFPGAの回路として動作させることが可能になってきている。 本年度は、Stratix V搭載のOpenCL対応FPGA評価ボードを用いて,OpenCLによりいくつかのコードを実装し、評価した。 Streamベンチマークや行列積、疎行列ベクトル積などを実装したが、Stratix Vデバイスのアーキテクチャ上の限界、 OpenCLコンパイラが未成熟なこと、などにより、構成可能な回路の見積もり、性能最適化の指標を得るには課題が大きいことがわかった。今後は次世代FPGA搭載ボードを用いて、引き続き評価検証を行うとともに、通信インタフェース部分を設計していく予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
今年度はAltera社Stratix V搭載のOpenCL対応FPGA評価ボードを用いて,OpenCLによりいくつかのコードを実装し、評価を行った。しかし、Stratix Vデバイスのアーキテクチャ上、浮動小数点演算器が複雑になること、OpenCLコンパイラが未成熟なことから、事前にどの程度の回路が実装可能であるか、どの程度の性能が得られるか、を見極めるのが非常に困難であった。 また、動的部分再構成が可能ではあるが非常に限定的で、ツールのサポートも不十分であり、回路の論理合成自体も極めて時間がかかる。例えば、ごく簡単なコードであっても、一度コンパイル(論理合成)するのに3時間程度を要するため、デバッグを行うにも時間がかかる。コンパイラ自体は既存の論理合成ツールを内部で呼び出しているが、完全にブラックボックスの形でツールができており、見通しが悪い。 また、現時点でいくつか性能が極端に悪い例があり、それらの解析に時間を要している。
|
Strategy for Future Research Activity |
Altera社Stratix Vの次の世代であるArria10においては、浮動小数点演算のサポート、動的部分再構成の高機能化などが見込めるため、今後は Arria10の製品出荷を待ち、これを用いた検証に切り替える予定である。 その一方で、既存の通信インタフェース部分をOpenCLフレームワークに組み込むための検証を先行して進めていく。
|
Causes of Carryover |
本年度購入を予定していたFPGA搭載InfiniBand通信ボードの発売が遅れ、入手ができなかった。次年度もこれを用いて当該研究を実施するのは困難な状況である。一方で、次世代のFPGA Arria10を搭載した評価ボードのうち、40G Ethernet, 100G Ethernetなどのインタフェースを搭載した製品も近く出荷される予定であり、そのようなボードを用いた評価に変更していくことを検討している。
|
Expenditure Plan for Carryover Budget |
上記で述べた、Arria10搭載FPGA評価ボードの入手を予定している。また、コンパイル(論理合成)に要する時間を短縮し作業効率を改善するため、高速なワークステーションを購入する予定である。
|