2017 Fiscal Year Research-status Report

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

Research Project

Project/Area Number	15K16019
Research Institution	Tokyo Institute of Technology
Principal Investigator	井上中順東京工業大学, 情報理工学院, 助教 (10733397)
Project Period (FY)	2015-04-01 – 2019-03-31
Keywords	映像認識 / パターン認識
Outline of Annual Research Achievements	平成２９年度は，以下の２点に関する研究を実施した．1)これまでに作成したフレームワークの大規模映像データセットによる評価，2)音情報を抽出するネットワークの調査・検討．1)に関しては，前年度に引き続き大規模画像データセットで事前学習されたニューラルネットワークを映像認識に適用した．その結果，物体やシーンの検出に高い効果があることが認められた．また，映像からイベントを検出する際にも，効果があることが明らかとなった．特に，1000種類の物体に関するデータ(ILSVRCデータセット)，13000種類の物体に関するデータ(ImageNETデータセット)，365種類のシーンに関するデータ(Placesデータセット)の組合せが効果的であることが明らかとなり，今後のデータセット作成の指針を得ることができた．また，これまでに作成したフレームワークでは，GoogLeNetと呼ばれるネットワークアーキテクチャを用いているが，今後はより多くの層で学習を可能とするResNet, ResNeXtアーキテクチャの導入が必要である．2)に関しては，Deep Autoencoderなど，音情報抽出に適したネットワークを模索している段階である．これらは，音声認識などに効果があるものであるが，研究の対象としている映像データに含まれる音データはノイズが多く，音質が低いものも含まれているため，ネットワークの学習が難しいという状態にある．これに関しては，質の高い音データで初期学習を行うなどの工夫が必要であり，音の部分に関しては当初計画よりも解決すべき課題が増えている．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason これまでに作成したフレームワークの評価が進み，映像認識での効果が確認できた点から研究はおおむね順調に進展している．
Strategy for Future Research Activity	今後の課題として，以下の２つが挙げられる． 1) より層の多いニューラルネットワークの導入 2) 音と画像を入力としたニューラルネットワークの作成この内，1)は概要で述べた通り，ResNetなどの多層ニューラルネットワークを導入する．2)はそれに音特徴量を抽出するネットワークを組合せる形で研究を実施する．
Causes of Carryover	当初購入を予定していた機器(ファイルサーバと最新のGPU)の価格が高騰し購入を見送ったため．次年度にファイルサーバを優先して購入予定である．