Project/Area Number |
17H00730
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
Computer system
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
NAKASHIMA Yasuhiko 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (00314170)
|
Co-Investigator(Kenkyū-buntansha) |
ZHANG Renyuan 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (00709131)
中田 尚 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00452524)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Project Status |
Completed (Fiscal Year 2020)
|
Budget Amount *help |
¥38,870,000 (Direct Cost: ¥29,900,000、Indirect Cost: ¥8,970,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2019: ¥19,500,000 (Direct Cost: ¥15,000,000、Indirect Cost: ¥4,500,000)
Fiscal Year 2018: ¥8,970,000 (Direct Cost: ¥6,900,000、Indirect Cost: ¥2,070,000)
Fiscal Year 2017: ¥9,100,000 (Direct Cost: ¥7,000,000、Indirect Cost: ¥2,100,000)
|
Keywords | CGRA / シストリックアレイ / エッジコンピューティング / 狭メモリバンド幅 / チップ間インタフェース / SIMD / VBGMM / ストカスティック計算 / 次世代計算基盤 / カスケーディング / AXIバス / 変分ベイズ / アクセラレータ / 近似計算 / CGRA / 分割推論 / アナログ近似計算 / シストリックリング / マルチスレッディング / 計算機アーキテクチャ |
Outline of Final Research Achievements |
We have completed the development of a prototype that has 140MHz internal operating frequency and 35.8Gbps external interface, which is 1/6 of the 28nm assumed ASIC (3mm square) and 4 chips configuration. As a result of the measurement, the single precision floating point arithmetic performance of the prototype is 5.6 times in the matrix product of 480x480, and 6.2 times in the convolution operation of 242x242 (ICH = 18, OCH = 16, K = 3x3) compared to NVIDIA Jetson TX2 respectively. Similarly, the estimated performance when converted to ASIC was 1.8 times in matrix multiplication, and 2.0 times in convolution operation compared to NVIDIA's GTX1080Ti respectively.
|
Academic Significance and Societal Importance of the Research Achievements |
狭メモリバンド幅環境において組込用プロセッサの演算効率を飛躍的に向上させる決定打は見つかっていない。不規則アドレスの複数データストリームに対し複数演算を100%近い効率で連続適用でき、同時に、メモリ主記憶間データ転送を100%近い効率で実行可能なメモリ主導型CGRAが最適と考えた。エッジコンピューティングの高機能化を狙うメモリ主導型CGRAの探索と体系化は、従来型プロセッサの性能向上が鈍化している状況において、自立人工知能搭載機器の低価格・低電力・小型化を加速する。サイズ・電源・価格の制約から、これまで搭載が不可能であった領域に高度な情報通信技術を展開し生産性を向上する原動力になると確信する。
|