Implementation of Efficient Asynchronously Coupled Computation with Timed Buffer on NVDIMM

Research Project

Project/Area Number	22K12049
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 60090:High performance computing-related
Research Institution	Kyushu University
Principal Investigator	南里豪志九州大学, 情報基盤研究開発センター, 准教授 (70284578)
Co-Investigator(Kenkyū-buntansha)	深沢圭一郎京都大学, 学術情報メディアセンター, 准教授 (50377868) 加藤雄人東北大学, 理学研究科, 教授 (60378982)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000) Fiscal Year 2024: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2022: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Keywords	高性能並列計算 / 通信最適化 / 連成計算 / 高性能計算 / NVDIMM / DPU
Outline of Research at the Start	複数の事象が関係する問題を計算により解決する手段として、それぞれの事象の解決プログラムを接続する連成計算が注目されている。連成計算における課題の一つに、それぞれのプログラムの進行速度の違いによる同期待ちが有る。本研究は、安価で大容量の不揮発性メモリNVDIMM上に時系列でデータを格納するバッファを実装し、これにより、同期待ちの少ない非同期連成計算の実現を目指す。本研究は、計算機の基盤ソフトウェア技術を専門とする研究者と、様々なシミュレーションプログラムを開発する研究者によるチームで取り組むことで、実用性の高い技術の開発を図る。成果は幅広く利用してもらえるようにGitHub等で公開する。
Outline of Annual Research Achievements	主に時系列バッファ領域の実装に取り組んだ。昨年度の研究実績概要に記述した通り、当初利用予定だったNVDIMMについて、開発元のIntel社が開発を停止したため、NVDIMMとしては依然購入した製品で代用した。一方、ネットワークカードとして、NVIDIA社の最新のネットワークカードBlueField2を購入した。これは、ネットワークカード上にDPU (Data Processing Unit) と呼ばれる汎用プロセッサを搭載したもので、これにより、従来ホストCPUで行っていた処理をネットワークカード上にオフロードすることが可能となる。そこで本年度は、時系列バッファ領域の操作の一部をDPUにオフロードする実装に向けて、まずBlueField2の性能解析を行った。DPUは独自のメモリを有しており、ホストCPUとは独立してOSが稼働している。そこで、ホストCPUとDPUのそれぞれでプログラムを起動し、ホストCPUとDPUの間、ホストCPU内、およびDPU内、のそれぞれについてデータ転送性能を計測した。その結果、ホストCPU内のメモリコピーに比べ、ホストCPUとDPUの間、およびDPU内のメモリコピーは、帯域幅が 1/3程度、遅延時間が 10～20倍程度であった。そこで本年度は、時系列バッファの操作のうち、メモリアクセスの遅延時間が性能に大きく影響しない処理について、DPUへのオフロードする設計を検討した。具体的には、生産プログラム側からの新規バージョンの追加処理については、ホストCPUは処理の開始後、別の処理を並行して進めることができるため、DPUへのオフロードにより時系列バッファ領域の操作時間を別の処理によって隠蔽することが可能となると考えられる。そこで、追加処理関数の内容をホストCPU側とDPU側に分離するよう、設計を変更した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究を進めていく中で、昨年度購入した最新ネットワークカードに搭載されたDPUを活用することで、時系列バッファ領域の操作をホストCPUからDPUにオフロードし、ホストCPUでのオーバヘッドを低減することを着想した。そこで、本年度予定していた時系列バッファ領域の実装について、まず、DPUの性能を解析したうえで、その結果に基づいて、DPUの機能や性能を最大限に活用した時系列バッファ領域を実装できるよう、設計変更を実施した。そのため、本年度で完了する予定だった時系列バッファ領域の実装が来年度となった。しかし、来年度予定していた連成計算での検証は、本年度までの研究でほぼ終わっているため、来年度前半にオフロード型時系列バッファ領域の実装を完了させ、その後、あらためて連成計算での動作検証を行うことで、全体的な計画としては、問題なく進めることができる。
Strategy for Future Research Activity	本年度着想した、ホストCPUからDPUに一部処理をオフロードする設計の時系列バッファ領域について実装を行い、それによる効果を検証する。検証には、加藤が開発した電磁圏内の高エネルギー粒子環境をミクロ計算で解くプログラムと、深沢が開発した太陽風の変動に伴う磁気圏構造の変化を磁気流体力学 (MHD) で解くプログラムの非同期連成、および、三宅が開発した人工衛星帯電予測プログラムとの非同期連成を用いる。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report