2020 Fiscal Year Annual Research Report
Near-memory efficient computing platform leading edge-computing
Project/Area Number |
17H00730
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
中島 康彦 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (00314170)
|
Co-Investigator(Kenkyū-buntansha) |
ZHANG Renyuan 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (00709131)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | チップ間インタフェース / CGRA / SIMD / VBGMM / ストカスティック計算 |
Outline of Annual Research Achievements |
最終年度は、【10】ASIC化の課題であるCGRAチップ間インタフェースのFPGA非依存設計と高速化を行い、それまで5Gbps*3レーンであった構成を5Gbps*8レーンに増強できた。また、副産物として、それまで32KBであった各ユニットのローカルメモリを64KBに倍増でき、高性能化に大きく寄与した。さらに、ローカルメモリの連続アドレスから2つの単精度浮動小数点データを一度にロード(SIMD-LOAD)する場合、先頭アドレスが64bit境界でなければならなかった制約をデュアルポートメモリの工夫により撤廃した。この機能拡張により、畳み込み演算では利用が困難であったSIMD-LOADが全面的に利用可能となり、高速インタフェースの利用と合わせて、性能をさらに約2倍に向上できた。最終的には、新たに開発したFPGA間接続高速インタフェースおよび大規模FPGAボード4枚を利用して、内部動作周波数(140MHz)および外部インタフェース性能(35.8Gbps)がともに、28nm想定ASIC(3mm角)4個連結構成の1/6となるプロトタイプの開発を完了した。測定の結果、プロトタイプの単精度浮動小数点演算性能は、NVIDIA製Jetson TX2に比べて、480x480の行列積では5.6倍、242x242(ICH=18,OCH=16,K=3x3)の畳み込み演算では6.2倍となった。また、外部メモリバンド幅あたり性能は、TX2(主記憶バンド幅480Gbps)に比べて、各々、76倍と83倍となった。同様に、ASIC化した場合の見積り性能は、NVIDIA製GTX1080Tiに比べて、行列積では1.8倍、畳み込み演算では2.0倍となった。【11】VBGMM法のCGRA化では、前述のように、GPUでは高速化が難しい指数関数の総和を求める部分に適用し、高速化が可能であることを確認した。【12】ストカスティック近似計算手法のCGRAへの統合に取り組み、DiaNETアーキテクチャシリーズを多数考案して、高効率性を確認した。
|
Research Progress Status |
令和2年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和2年度が最終年度であるため、記入しない。
|