2013 Fiscal Year Annual Research Report
次世代超並列流体計算のためのメモリボトルネックの無いスケーラブル計算機の研究
Project/Area Number |
23300012
|
Research Institution | Tohoku University |
Principal Investigator |
佐野 健太郎 東北大学, 大学院・情報科学研究科, 准教授 (00323048)
|
Co-Investigator(Kenkyū-buntansha) |
佐々木 大輔 金沢工業大学, 工学部, 講師 (60507903)
山本 悟 東北大学, 情報科学研究科, 教授 (90192799)
|
Project Period (FY) |
2011-04-01 – 2015-03-31
|
Keywords | 高性能計算 / 計算機アーキテクチャ / 数値流体力学 / アクセラレータ / リコンフィギャラブル計算 / FPGA |
Research Abstract |
当該年度では、以下を実施した。 【1.密結合FPGAクラスタおよびその開発環境の改良】 前年度開発をした密結合FPGAクラスタに対し、安定動作および開発効率向上のための改良を行った。クラスタに無停電電源装置を追加した他、FPGAボードを4枚搭載した計算ノード内に温度計を設置して稼動時の温度上昇を確認し、長時間の実用計算にも耐え得るシステムを構成した。また、各FPGA上に実装するアクセラレータフレームワークについて、昨年度開発した基本設計を拡張し、特に10Gイーサネット(10GE)ネットワークを経由して他のFPGAボード上のDDR3メモリにデータを書込むための、リモートメモリライトモジュールを開発した。これを10GEのIPコアと併せてフレームワーク上に実装し、実機上で動作確認を行った。また、複数のユーザにより遠隔でFPGA上のハードウェア開発を行うための、サーバ環境の整備を行った。 【2.BCMアクセラレータの計算コアの試作実装と評価】 前年度基本設計を行った計算コア「キューブエンジン(CE)」について、浮動小数点の多段計算パイプラインを実装し、FPGA上でその動作を確認した。データストリームに対してメモリボトルネックを回避し高スループットの流体計算を行うために、ステンシルバッファIPコアを開発しCEに組み込んだ。 【3.通信アルゴリズムの改良】 従来のBCMによる並列計算では小規模のデータ通信が頻発しFPGAクラスタ上で高い性能向上が見込めなかったため、近似計算にはなるもののデータ通信をまとめて効率化を図る通信アルゴリズムを考案した。また、簡単な2次元流体計算を模擬するソフトウェアにより、時間刻みが十分に小さければ改良版通信アルゴリズムでも計算誤差が非常に小さく抑えられることを確認した。また、この通信アルゴリズムを実装するための通信および制御機構の基本設計を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、最終的に、試作実装を通じて実用問題に対する並列計算の性能評価を行うことを目的としている。これに対し、密結合FPGAクラスタとその開発環境、およびFPGA上に実装する基本アクセラレータフレームワークおよびドライバ・ライブラリソフトウェアがほぼ完成していることに加え、各FPGA上に実装するBCMの計算コア(キューブエンジン,CE)についてもその試作実装を終えていることから、研究開発は順調である。加えて、FPGA間のデータ通信を効率良く実現するためのリモートメモリライトモジュールの開発や、データ通信を効率化する改良版アルゴリズムの考案も行っており、全体として動作するシステムの完成に向けて、必要となる基本要素の開発も順調に進んでいる。 複数のFPGAに対して並列に計算を実行させるためのホスト計算機上の並列ソフトウェア開発を、現在進めているところである。既存のBCMソフトウェアは殆どがFORTRANで書かれておりFPGAを駆動させる機能を追加するのが困難であるため、C++言語によりBCM並列計算ソフトウェアを1から新規に開発している。このソフトウェアおける計算処理をFPGA上のハードウェアにオフロードすることにより、リコンフィギャラブルアクセラレータを用いた高性能計算を実現しようとしているところである。
|
Strategy for Future Research Activity |
今後は、BCMアクセラレータシステム全体の完成と、超並列流体計算のためのスケーラブル計算機の評価のために、以下を実施する予定である。 【1.BCM計算ノードの完成】 前年度開発をしたキューブエンジン(CE)、リモートメモリライトモジュール(RemoteMM)、改良版データ通信機構を組み合わせて、高速計算とそれに伴うデータ通信が可能なBCM計算ノードを構成し、FPGA上に実装する。本ノードでは、ソフトコアプロセッサであるNIOS IIプロセッサを用い、ハードウェアモジュールに対する計算と通信の制御といったあまり高性能な処理が求められない部分をファームウェアとして実装する。 【2.複数ノードによる並列計算の実施】 複数のFPGAに実装した1の計算ノードに対し、並列にBCM計算を実行するための並列ソフトウェアを開発する。FPGAクラスタを構成する複数のPCノード上で並列に動作し、FPGA上のBCM計算ノードとデータの入出力を行いながら計算の開始を制御したり途中の計算結果を読み出し可視化や保存を行うためのソフトウェアを実装する。併せて、アクセラレータによる計算の検証のために、ソフトウェアによるBCM並列流体計算も実装を行う。 【3.性能評価と設計の改良】 1,2を通じて、最終的には、3次元の実用規模の問題を実機にて計算し、性能や消費電力等を評価する。リコンフィギャラブルアクセラレータを用いることにより、メモリボトルネックが回避できかつ台数効果が向上可能なことについて、知見を得る。また、得られた結果を設計と実装にフィードバックし、研究期間の限りその性能向上のための工夫・改善を行う。
|
Research Products
(24 results)