キラーアプリケーションとして有望視されはじめた動画認識においては、認識精度向上のために背景除去が役立ち、このために、ライトフィールド画像から得られる奥行き情報を利用できる。また、動画認識処理では、畳み込み層と全結合層の連携により計算を行う。この際問題となるのが、動画を取得するデバイスからクラウドへ全ての動画を送信すると膨大なデータ量のために通信路がパンクすることである。そこで、分散CNNシステムのモデルを構築し、圧縮率と認識精度の関係について研究を行った。複数のデバイスに採用されているDCNNを使用した並列処理モデルと、デバイス間のネットワークトラフィックのサイズの縮小に取り組み、中間データを圧縮し、動画認識のためにAlexNetの共通計算を集約する手法を提案した。実験の結果、Zipの無損失圧縮はデータ量を最大1/24まで削減でき、HEV非可逆圧縮では1/208までデータを削減でき、わずか3.5%の認識精度の低下で済むことが明らかになった。さらに、共通計算の集約により、30個のDCNNの計算量を90%削減できた。 また、開発したCGRAを動画認識へ応用する研究も行った。Deep Learning を用いた画像認識で標準的に使用されるDCNN は、非常に計算量が多いため、高性能な計算機が必要である。低消費電力で高性能を狙ったCGRA 型のアクセラレータであるEMAXVをベースに,DCNN 最適なCGRA を探索し、予備評価を行った。評価によって得られた結果から、さらに探索を進め、ARM Coretex-A9 のデュアルコアに比べて40 倍、Vivante GC2000+に比べて11 倍、Xilinx Zynq(Z-7020)のFPGA 部に高位合成を使用して演算処理回路を実装したものに比べて6 倍の性能が出せることを見積もりにより確認した。
|