2017 年度実施状況報告書

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究課題

研究課題/領域番号	15K16019
研究機関	東京工業大学
研究代表者	井上中順東京工業大学, 情報理工学院, 助教 (10733397)
研究期間 (年度)	2015-04-01 – 2019-03-31
キーワード	映像認識 / パターン認識
研究実績の概要	平成２９年度は，以下の２点に関する研究を実施した．1)これまでに作成したフレームワークの大規模映像データセットによる評価，2)音情報を抽出するネットワークの調査・検討．1)に関しては，前年度に引き続き大規模画像データセットで事前学習されたニューラルネットワークを映像認識に適用した．その結果，物体やシーンの検出に高い効果があることが認められた．また，映像からイベントを検出する際にも，効果があることが明らかとなった．特に，1000種類の物体に関するデータ(ILSVRCデータセット)，13000種類の物体に関するデータ(ImageNETデータセット)，365種類のシーンに関するデータ(Placesデータセット)の組合せが効果的であることが明らかとなり，今後のデータセット作成の指針を得ることができた．また，これまでに作成したフレームワークでは，GoogLeNetと呼ばれるネットワークアーキテクチャを用いているが，今後はより多くの層で学習を可能とするResNet, ResNeXtアーキテクチャの導入が必要である．2)に関しては，Deep Autoencoderなど，音情報抽出に適したネットワークを模索している段階である．これらは，音声認識などに効果があるものであるが，研究の対象としている映像データに含まれる音データはノイズが多く，音質が低いものも含まれているため，ネットワークの学習が難しいという状態にある．これに関しては，質の高い音データで初期学習を行うなどの工夫が必要であり，音の部分に関しては当初計画よりも解決すべき課題が増えている．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由これまでに作成したフレームワークの評価が進み，映像認識での効果が確認できた点から研究はおおむね順調に進展している．
今後の研究の推進方策	今後の課題として，以下の２つが挙げられる． 1) より層の多いニューラルネットワークの導入 2) 音と画像を入力としたニューラルネットワークの作成この内，1)は概要で述べた通り，ResNetなどの多層ニューラルネットワークを導入する．2)はそれに音特徴量を抽出するネットワークを組合せる形で研究を実施する．
次年度使用額が生じた理由	当初購入を予定していた機器(ファイルサーバと最新のGPU)の価格が高騰し購入を見送ったため．次年度にファイルサーバを優先して購入予定である．