研究課題/領域番号 |
20H00593
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
佐野 健太郎 国立研究開発法人理化学研究所, 計算科学研究センター, チームリーダー (00323048)
|
研究分担者 |
柴田 裕一郎 長崎大学, 情報データ科学部, 教授 (10336183)
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷川 一哉 広島市立大学, 情報科学研究科, 講師 (80382373)
宮島 敬明 明治大学, 理工学部, 専任講師 (90770850)
佐藤 三久 国立研究開発法人理化学研究所, 計算科学研究センター, 副センター長 (60333481)
上野 知洋 国立研究開発法人理化学研究所, 計算科学研究センター, 特別研究員 (30794135)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | データフロー計算モデル / 布線論理型 / 計算機アーキテクチャ / システムソフトウェア / ポストムーア時代 |
研究実績の概要 |
スケーラブルデータフロー(SDF)システムの構築を目指し、COMP、PROGSYS、APPの3グループ体制により、計算機構とモデル、プログラミングモデルとシステムソフト、アプリ(APP)の研究を実施した。 COMPでは、SDFアーキテクチャとして粗粒度再構成可能アレイ(CGRA)の基本構成とその評価フレームワークを用いて、内部結合網の探索を行った。また、マルチFPGAに対して効率的にタスクをオフロードするためのタスク管理機構や、グラフ幅優先探索、点群処理のデータフローハードウェアを設計しその基礎評価を行った。 PROGSYSでは、FPGAクラスタ向けのタスク割当てを研究開発した。計算と再構成の重畳により再構成時間を隠蔽し、さらに隣接FPGAへのタスク割当てにより直接網の利用を促進することで、タスク並列処理のメイクスパンを短縮した。また、OpenACC/OpenMP target構文からOpenCLに変換するコンパイラを開発した。OpenCLに変換することにより、NVIDIAのみならずAMDのGPUやFPGA向けにコンパイル可能となる。この他、ARM SVE向けオフロードコードの生成方法を検討した。また、動的依存関係の探索コストを削減するために、組み込みアプリ向けにOpenMPのtask構文を静的なタスク記述に拡張する方法を提案し、簡単なタスクグラフでその効果を確認した。 APPでは、並列化された幅優先探索アルゴリズムを基にグラフの幅優先探索専用アクセラレータHyGTAを再設計することとし、そのシミュレータ開発に着手した。また、近似凸包の計算法について、複数FPGAによる並列処理で近似精度を向上させる手法を実装した。さらに、複数FPGAによるアプリの機能検証高速化を目的として、複数FPGAの動作記述を単一の大規模FPGAの動作記述に自動変換するツールを提案し評価を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
開発したFPGAクラスタを共通の研究プラットフォームとして研究を実施した。スケーラブルデータフロー計算アーキテクチャとしてハードウェア記述言語により設計・実装した基本構成のCGRAに対し、シミュレーション評価フレームワークを構築した。これにより、幾つかのベンチマーク問題に対する評価やCGRAの内部結合網構成の探索を行った。これらに加え、CGRAのFPGA実装、かつタスク管理機構、マルチFPGA向けのアプリケーションの実装・評価を進めていることから、概ね研究実施計画の通りに進んでいる。
|
今後の研究の推進方策 |
今後は、アーキテクチャ、ハードウェア、システムソフトウェア、アプリを可能な範囲で組み合わせ、スケーラブルデータフロー(SDF)システムのさらなる研究を進めていく。CGRA、または高位合成言語により実装されたアプリ専用ハードウェアをFPGAクラスタに実装し、それに対してプログラミング・タスクオフロードインタフェースやタスクスケジューラなどのシステムソフトの評価を行う。特に、これまで同様に理研のFPGAクラスタを共通の研究プラットフォームとして研究を実施し、研究分担者らと定期的に打ち合わせやワークショップを行いながら、密に連携して研究を推進していく。複数FPGAへのタスク割当に関する検討をさらに進めると同時に、より大きな粒度での資源管理が求められるデータフロー計算も含めたシステム全体の資源管理機構を評価する。さらに、近年登場した高バンド幅メモリ (HBM2) 搭載FPGAを有効活用するように、特定のアプリケーション向けのメモリサブシステムの設計の検討を行う。具体的には、メモリアクセスのコアレッシングユニットとダブルバッファリングを組み合わせることで、ストライド幅が大きなメモリ書き出しの性能劣化を低減する方法の詳細評価を行う。
|