2015 Fiscal Year Research-status Report
同期シフトデータ転送に基づくディープラーニング・ハードウェア構成法の研究
Project/Area Number |
26330060
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
北澤 仁志 東京農工大学, 工学(系)研究科(研究院), 教授 (60345329)
|
Co-Investigator(Kenkyū-buntansha) |
富岡 洋一 会津大学, コンピュータ理工学部, 准教授 (10574072)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | ディープラーニング / FPGA / リコンフィギャラブルシステム / 物体識別 / 移動物体抽出 |
Outline of Annual Research Achievements |
本研究は,FPGAを用いた並列処理ハードウェアによる,DNNの高速処理の実現を目指している.平成27年度はパイプライン処理形式とSIMDアレイ形式の2通りの並列ハードウェアを実現し,必要な資源,処理速度,機能の汎用性などをを明らかにした. まず,パイプライン形式では,畳込み演算を行うスループット1クロックのパイプライン式積和演算器を,各レイヤに対応して実装する形式を用いた.また,終段の密結合層の代わりに総和回路を用いることで,性能を落とさずに資源が大きく節減できることを示した.この回路に必要な積和演算器の数は畳込みのフィルタの大きさで決まり,画像サイズには依存しない.画像サイズに影響されるのはFIFO,実際にはバッファメモリの長さのみであり,大きな画像にも適用できる.回路全体のスループットは1ピクセル/1クロックであり,320×240の車載カメラ画像中の前走車両の接近識別において識別率99.0%,約1600フレーム/秒の処理速度を実現した.演算速度は409GOPSであり,この時点での1チップ構成の最速を達成した.この成果を国際会議SSIAI2016で,また,max-pooling後の演算効率低下を抑えた改良版を情報処理学会全国大会で発表した. 次に,SIMDアレイ形式では,1枚のFPGAボードでカメラ64台の映像を入力し,移動物体の抽出,追跡,識別を行うことを目指したMulti-Stream Trackingハードウェアにおいて,物体識別部分にDNNを適用した.背景差分による移動物体抽出回路,位置スケール変換回路,およびDNN識別回路が,同一のSIMDアレイ上で実行できることを示した.処理速度はGPUには及ばなかったが,付加的ハードウェアを用いることなく,人,車両,背景の識別時間3.7msec,識別率94%を得た.この成果を情報処理学会全国大会で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定通り,同期シフトデータ転送,および,パイプライン形式のDNN並列処理ハードウェアを実現し,必用な資源,処理速度,処理の汎用性,機能拡張時の変更の大きさなどを明らかにした.またこれらに関して3件の学会発表を行った.パイプライン式に関しては外部と比較して最高速を達成した.一方,SIMDアレイ式は,種々の機能を同一ハードウェア上で実行できるが,処理速度に関してはまだ充分とは言えず,更なる高速化を目指す.
|
Strategy for Future Research Activity |
ディープラーニングの応用拡大のためには学習の高速化が鍵となると考えられる.今までの研究でForward Propagation(FP, 識別)を高速化するハードウェアは実現できたが,Back Propagation(BP, 学習)の高速化については有効なハードウェアはまだ実現出来ていない.この大きな要因はBPの実行のためには,(1)FPのみでは保存の必要が無かった入力Xや結合重みWの変化分などの中間データを多量に保存する必要があること,(2)学習においてWの変化分を求めるとき,回路全面にわたるグローバル演算が必要になることと考えられる.(1)の中間データの保存は完全に避けることはできないが,Wを1bitで表現可能との報告があり,これを適用すれば記憶容量や演算回路を大きく節減できる可能性がある.(2)については畳込み回路のグローバルな均一化を避けてローカルにのみ均一化するLocally Connected Layerの適用が考えられる.これらの計算手法の改良も含めて高速学習に適したDNN処理ハードウェアの実現を目指す.
|
Causes of Carryover |
主な要因は画像処理用のPCの選定において,高速な倍精度浮動小数点演算器を持つGPUを装備した機種が予定よりかなり高価であったため,当面は単精度の機種としたこと,および,謝金が当初の予定より少なくて済んだことによる.これらは次年度に使用する予定である.
|
Expenditure Plan for Carryover Budget |
28年度経費と併せて高性能PCを購入する.また,学生の研究補助のアルバイト料,および国際会議出張旅費に使用する.
|