2023 Fiscal Year Annual Research Report
In-Storage Accelerator Architectures for Large-Scale Sparse Matrix Processing
Project/Area Number |
21K17720
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
CHU ThiemVan 東京工業大学, 科学技術創成研究院, 助教 (80838235)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 疎行列処理 / SpMSpM / アクセラレータアクセラレータ / FPGA |
Outline of Annual Research Achievements |
本研究では,大規模疎行列処理を可能にするインストレージアクセラレータアーキテクチャを含む,包括的な疎行列処理アーキテクチャの開発を目指している.具体的には,疎行列と疎行列の積(SpMSpM)という疎行列処理の基本演算に焦点を当て,高速かつ高効率なアーキテクチャの研究を進めており,FPGAによるハードウェアプロトタイプの実装及び評価を行った.
SpMSpMの基本的な処理データフローとして,内積,外積,行/列ごとの積が挙げられる.内積ベースのデータフローでは,入力行列を繰り返し何度も読み込む必要があり,インデックスがマッチしている要素同士のみの乗算を行うため,メモリアクセス量が膨大になるわりに,無効なものが多い.外積ベースのデータフローは,内積ベースのデータフローのようの無駄なデータ読み出しの問題が発生しないが,途中結果の部分行列の大きなマージコストの問題がある.そこで,近年提案されたSpMSpMアーキテクチャは行/列ごとの積ベースのデータフローを採用している.しかし,各行/列の非ゼロ要素数の不規則性に起因して,各行/列の処理負荷がアンバランスで効率的な並列化が困難であるのと,不規則な入力データパターン・サイズの問題がある.
本研究は,既存のSpMSpM処理データフローの問題の解決を目指し,Distribute-Merge Product (DMP)と呼ばれる新しいSpMSpMデータフローを提案した.DMPに基づくアーキテクチャを設計し,FPGAボードでの実機検証・評価を行った.ZCU106 FPGAボードで最先端のSpMSpMアーキテクチャ(Li+ IEEE TCAD 2023)に比べて,同程度の回路規模で2.72倍,約1.6倍程度の回路規模で4.80倍,という大幅な性能向上を達成できることを確認した.この成果はVLSIとシステム関連の国際会議ASP-DAC'24で発表した.
|