In-Storage Accelerator Architectures for Large-Scale Sparse Matrix Processing
Project/Area Number |
21K17720
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60040:Computer system-related
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
CHU ThiemVan 東京工業大学, 科学技術創成研究院, 助教 (80838235)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 疎行列処理 / データフロー / アクセラレータ / FPGAプロトタイピング / インストレージコンピューティング / FPGA |
Outline of Research at the Start |
本研究では,ビッグデータや機械学習等の多くアプリケーションで求められている大規模疎行列処理を高速化するためのアクセラレータアーキテクチャの確立を目指す.アクセラレータをストレージ内のカスタムハードウェアで実現するアプローチを用いる.ストレージチップ内のデータを低レーテンシかつ高バンド幅でアクセスできるというストレージ内処理の最大の利点を活用するのと,実際の多くのアプリケーションで同時に求められている疎行列・ベクトル積,疎行列積,疎行列転置という3つの主要な疎行列処理のいずれもサポートできるマージソータ,ネットワーク・オン・チップベースのヘテロジニアスメニーコアアーキテクチャを研究開発する.
|
Outline of Annual Research Achievements |
疎行列処理に関する包括的なアーキテクチャの実現を目指して,昨年度は,疎行列関連の主な基本演算である,疎行列と疎行列の積(SpMM)を高速化するアーキテクチャ/マイクロアーキテクチャの研究を行い,ハードウェアプロトタイプとしてFPGA実装を進めてきた.具体的には,SpMMをより効率的に処理する,一昨年度に提案した新しいデータフローをベースにアーキテクチャ/マイクロアーキテクチャの詳細な設計とRTL実装を行った.SpMMの基本的な処理データフローとして,inner product, outer product, row/column-wise productが挙げられる.Inner productでは,入力行列を繰り返し何度も読み込む必要があり,インデックスがマッチしている要素同士のみの乗算を行うため,メモリアクセス量が膨大になるわりに,無効なものが多い.この問題は,入力行列の密度が低ければ低いほど深刻となる.そこで,本研究は,疎行列により相性が良いouter productとrow/column-wise productをベースにより効率的な処理データフローとその特徴に合ったアーキテクチャ/マイクロアーキテクチャを設計した.
初期評価では,機能レベルのシミュレータを開発し,全体の性能や消費電力に大きく影響する外部メモリアクセス量に着目してSpArchという代表的な最先端SpMM処理アーキテクチャと比較を行った.この成果を2022年並列/分散/協調処理に関するサマー・ワークショップ (SWoPP2022)で発表した.
以上の有望な結果を踏まえて,アーキテクチャ/マイクロアーキテクチャの設計とRTL実装を行い,AMD-Xilinx社のAlveoアクセラレータカードで動かして詳細な評価を進めている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
疎行列処理に関する包括的なアーキテクチャの実現に向けて,疎行列関連の主な基本演算である,疎行列と疎行列の積(SpMM)の高効率処理データフローとその特徴に合ったアーキテクチャ/マイクロアーキテクチャを考案して,初期評価のための機能レベルのシミュレータの作成,詳細な評価のためのRTL実装・FPGAプロトタイピングを行った.
初期評価では全体の性能や消費電力に大きく影響する外部メモリアクセス量に着目し,広範囲のベンチマークを用いてSpArchという代表的な最先端SpMM処理アーキテクチャと比較した.その結果,同等程度の回路規模を仮定した時に,SpArchが効率的に処理することが可能なdensity率(非ゼロ要素の密度)が10e-5程度のスーパースパース行列に対して平均約1.8倍,それよりも少し密な10e-2程度のdensity率のスパース行列に対しては平均約5.9倍程度外部メモリアクセス量を減らすことができた,という有望な結果が確認できている.この成果を論文にまとめて2022年並列/分散/協調処理に関するサマー・ワークショップ (SWoPP2022)で発表した.
|
Strategy for Future Research Activity |
現在進行中の提案SpMM処理アーキテクチャのRTL実装・FPGAプロトタイピングを引き続き行って,実行性能や回路規模,消費電力の定量的な評価をして,国際会議に論文を投稿するための作業を進めていく.また,疎行列と密ベクトルの積(SpMV),疎行列転置(SpMT)等の他の疎行列処理への拡張も検討していく.提案のSpMM処理アーキテクチャの基本的な処理カーネルは乗算,累和,マージであり,これらのカーネルでSpMV,SpMTも効率的に実現できることを発見した.これをベースに,SpMM,SpMV,SpMTのいずれも処理できる包括的なアーキテクチャの研究に取り組んでいく計画をしている.また,疎行列処理は最近構造型のデータに対する新しいAI処理として注目を集めているGraph Neural Network(GNN)の処理においても重要な技術であり,GNNへの応用展開も視野に入れて進めたい.
|
Report
(2 results)
Research Products
(2 results)