研究課題/領域番号 |
20H00593
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
佐野 健太郎 国立研究開発法人理化学研究所, 計算科学研究センター, チームリーダー (00323048)
|
研究分担者 |
柴田 裕一郎 長崎大学, 情報データ科学部, 教授 (10336183)
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷川 一哉 広島市立大学, 情報科学研究科, 講師 (80382373)
宮島 敬明 明治大学, 理工学部, 専任講師 (90770850)
佐藤 三久 国立研究開発法人理化学研究所, 計算科学研究センター, 副センター長 (60333481)
上野 知洋 国立研究開発法人理化学研究所, 計算科学研究センター, 特別研究員 (30794135)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | データフロー計算モデル / 布線論理型 / 計算機アーキテクチャ / システムソフトウェア / ポストムーア時代 |
研究実績の概要 |
ポストムーア時代に適したスケーラブルデータフロー(SDF)システムの構築を目指し、COMP、PROGSYS、APPの3グループ体制により、計算機構とモデル、プログラミングモデルとシステムソフト、アプリに関する研究を実施した。 COMPでは、粗粒度回路再構成可能アレイ(CGRA)を研究した。SystemVerilogによりモジュール化されたCGRAを設計・実装し、開発したコンパイラツールフローとシミュレーションフローを用いてHPC向けのカーネルの動作検証と性能評価を行った。 PROGSYSでは、複数FPGAを連携させるための実行時環境の検討を行った。前年度に開発したSYCL実装を拡張し、依存関係に基づいてタスクを複数FPGAに割り当てる機能を追加した。富岳のノードから複数FPGAを遠隔利用することで同機能の有用性を評価した。既にFPGA実装が利用できるアプリ・ライブラリを利用して、FPGAクラスタを富岳を含むスパコンと融合プログラミングを行うためのグローバルタスクモデルを構築し、試作評価を行った。また、FPGAも対象とするOpenCLをターゲットとするOpenACC/OpenMPコンパイラについて検討した。 APPでは、幅優先探索について専用アクセラレータHyGTAのFPGA実装を行った。判明したボトルネックを解消するために隣接節点データ専用キャッシュを提案し、シミュレータを用いて性能を評価した。加えて、凸包計算について近似を導入した手法を提案し、実用的な精度で性能向上を得られることを示した。また、不等間隔メッシュを用いたステンシル計算で発生する不規則なメモリアクセスを効率化する手法の検討を行った。加えて、HPC向けの計算カーネルとして重要なFFTを対象に、データフローに適したアルゴリズムを検討した。また、メモリバンド幅を有効活用しつつ、転置処理を行うアルゴリズムの実装を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
前年度までに開発したFPGAクラスタを共通の研究プラットフォームとして順調に利用出来ている。スケーラブルデータフロー計算アーキテクチャとして基本構成のCGRAをハードウェア記述言語により設計・実装し、そのシミュレーション評価フレームワークを構築している。これらに加え、CGRAを実装する予定のFPGAシステムオンチップに対しプログラミングインターフェースの研究開発や各種アプリの研究開発も進んでいることから、概ね研究実施計画の通りに進んでいる。
|
今後の研究の推進方策 |
今後は、アーキテクチャ、ハードウェア、システムソフトウェア、アプリを可能な範囲で組み合わせ、スケーラブルデータフロー(SDF)システムのさらなる研究を進めていく。CGRA、または高位合成言語により実装されたアプリ専用ハードウェアをFPGAクラスタに実装し、それに対してプログラミング・タスクオフロードインタフェースやタスクスケジューラなどのシステムソフトの評価を行う。これまで同様に理研のFPGAクラスタを共通の研究プラットフォームとして研究を実施し、研究分担者らと定期的に打ち合わせやワークショップを行いながら、密に連携して研究を推進していく。 PROGSYSでは、これまでに設計・開発してきたプログラミングインタフェースと実行時環境をさらに機能拡張していくと同時に、FPGAクラスタで実アプリケーションを実行する際の有効性を評価することを予定している。FPGAクラスタを富岳を含むスパコンと融合プログラミングを行うためのグローバルタスクモデルを利用して、その有効性を検証できるアプリでの実証・性能評価を行う。また、FPGAも対象とするOpenCLをターゲットとするOpenACC/OpenMPコンパイラの試作評価を行う。 現グラフ専用アクセラレータは逐次処理を前提としているが、今後は並列処理を前提とした専用アクセラレータの開発に着手する。 提案している凸法計算の手法は、単一のFPGAによる実装と評価を行っているが、今後は複数のFPGAを用いた並列実装を検討し、性能と計算精度と要求ハードウェア量の定量的な関係を明らかにすることを予定している。また、近年登場した高バンド幅メモリ (HBM2) 搭載FPGAを有効活用するようにアルゴリズムの改修を行う。特に高い実行性能を実現するためのメモリサブシステムの設計について検討を行う。
|