2017 Fiscal Year Annual Research Report
Near-memory efficient computing platform leading edge-computing
Project/Area Number |
17H00730
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
中島 康彦 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00314170)
|
Co-Investigator(Kenkyū-buntansha) |
中田 尚 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00452524)
ZHANG Renyuan 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (00709131)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | エッジコンピューティング / シストリックリング / マルチスレッディング |
Outline of Annual Research Achievements |
無数のセンサが一次データを全てクラウドに送信する分業方式では通信インフラの渋滞や応答速度の低下を招く。このため、センサやエッジにおいて二次データに加工圧縮後送信する分業方式が求められている。しかし、センサやエッジでは電源や冷却等の制約から潤沢な計算能力を確保することが難しい。そこでプログラマビリティと引き換えに電力効率の良い計算基盤が多数提案される状況にある。具体的には、GPU混載プロセッサによる自動運転の実現等、エッジコンピューティングと人工知能の融合が進んでいる。しかし、様々な場面に応用するには、広域離散ステンシル計算やベクトル長の短い畳み込み演算をGPUより遥かに低コストかつ低電力に実行できる計算基盤が必要である。本研究では、メモリとして扱うことができるシストリックリング型アクセラレータ設計と評価を行った。初年度の成果は次の通りである。(1)列方向マルチスレッディング技術の考案;(2)チップ内ローカルリカレントメモリ(RMM)の導入;(3)ホストに対してメモリとして見せるインタフェースの考案;により、【1】エッジ高機能化に資するメモリ主導型CGRAの探索と体系化;【3】大規模専用ハードウェアを模擬できるCGRA仮想化技術の探索;に関して大きな成果を挙げることができた。また【2】プログラマビリティの飛躍的改善と性能チューニング手法の探索;についても、開発済CGRAとの機能互換を達成できたことにより、既存ツールチェインの積み上げによる無駄の無い環境構築ができた。特に、ARM-SoC上に4列64行の機能を実装し、実機動作の確認まで完了できた。また、計画を前倒しして28nmテクノロジによる評価も完了した。以上、予定を大幅に上回るペースにて研究が進捗している。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の予定は次の通りであった。 【研究項目1】エッジ高機能化に資するメモリ主導型CGRAの探索と体系化:本格設計の前に、不規則な主記憶参照を伴う6重ループ画像処理カーネルを評価し、プロトタイプを設計する。見通しの良い性能予測のため、演算に干渉しない主記憶データ供給パスを設け、統合制御により、主記憶⇒メモリ、メモリ間CGRA演算、メモリ⇒主記憶を完全にオーバラップさせ、稼働率100%を目指す。 【研究項目2】プログラマビリティの飛躍的改善と性能チューニング手法の探索:プログラマビリティの飛躍的改善に必要な基盤技術に関して網羅的に探索を行い、有望なアイデアを組み込んだツールチェインの評価用プロトタイプを作成する。 【研究項目3】大規模専用ハードウェアを模擬できるCGRA仮想化技術の探索:専用回路において生じるデータ依存由来の無駄な動作時間をCGRA上に重畳実装することにより、CGRA資源の最大限活用と、CGRAの弱点である配線の大幅削減を同時に達成する。具体的な実装方法について詳細検討を開始する。 これに対し、今年度の実績は以下の通りである。 (1)列方向マルチスレッディング技術の考案;(2)チップ内ローカルリカレントメモリ(RMM)の導入;(3)ホストに対してメモリとして見せるインタフェースの考案;により、【1】エッジ高機能化に資するメモリ主導型CGRAの探索と体系化;【3】大規模専用ハードウェアを模擬できるCGRA仮想化技術の探索;に関して大きな成果を挙げることができた。また【2】プログラマビリティの飛躍的改善と性能チューニング手法の探索;についても、開発済CGRAとの機能互換を達成できたことにより、既存ツールチェインの積み上げによる無駄の無い環境構築ができた。特に、ARM-SoC上に4列64行の機能を実装し、実機動作の確認まで完了できた。また、計画を前倒しして28nmテクノロジによる評価も完了した。
|
Strategy for Future Research Activity |
当初予定の40nmテクノロジによる大規模LSI試作は、もはや国内では必要なCADを保有している引き受け手がないことが判明した。また、十分な絶対性能に必要となる高速I/Oが予算内では調達困難であることも判明した。CADレンタル費および高速I/O購入費を本予算で賄うことはできないため、LSI化の技術的目処が立った現状にて試作はスキップし、LSI開発については別途競争的資金に応募して継続を試みることとした。本年度は、LSI開発費削減のための技術開発を含む、以下3つの発展的課題に取り組む。 【4】エッジコンピューティング向け省面積CGRAのマルチチップ構成に関する検討と性能評価・分析:研究項目【1】と【3】を統合し、省面積LSIの特長を最大限生かす方向として、マルチチップ化による容易な拡張を可能とする構成の検討を開始する。このために、ARM-SoCを拡張するVU440を追加購入し、マルチチップ構成評価環境を整備する。 【5】エッジコンピューティング向けの共有CNN方式と分割推論モデルの構築と評価:研究項目【2】の発展として動画認識によるデータ圧縮をエッジコンピューティングのキラーアプリケーションとし、分散機械学習による複数エッジのグループ化、重みの共有、中間結果の圧縮による、エッジとデバイスを包含する最適化技術の探索を行う。 【6】エッジコンピューティング向けのアナログアプロキシメイト演算方式の検討と性能評価・分析:半導体微細化の終焉により急速に注目を集めているアナログ近似計算機構を成果の出ているCGRAと組み合わせるハイブリッド構成について探索を開始する。
|