2016 年度実施状況報告書

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究課題

研究課題/領域番号	15K16019
研究機関	東京工業大学
研究代表者	井上中順東京工業大学, 情報理工学院, 助教 (10733397)
研究期間 (年度)	2015-04-01 – 2019-03-31
キーワード	映像認識
研究実績の概要	平成２８年度は，前年度作成したフレームワークにおける画像認識モデルを改良し，高精度化を行った．前年度は，画像特徴の抽出を行う深層学習において，８層の隠れ層を持ったニューラルネットワークを採用していたが，それを２３層の隠れ層を持ったニューラルネットワークに変更することで，より大規模なデータセットでの学習を可能とした．具体的には，ImageNETと呼ばれる大規模絵画像データセットで事前学習されたネットワークを用いている．現在は，それを映像認識に適用し，評価する実験を進めている．また，ニューラルネットワーク自体の性能評価と音響特徴量との組み合わせの効果を検証するために，従来の画像・音響特徴量を用いた映像の意味的インデクシングシステムと深層学習を用いたシステムの比較評価を行なった．その結果，深層学習に基づいたシステムは映像の意味的インデクシングにおいて従来よりも高い精度で物体・動作・シーンの検出が可能であること，また，従来のシステムと相補的な特徴を捉えていることが確認できた．特に学習用の映像サンプル数の少ない物体やシーンに関しては，ImageNETデータセットで事前学習されたネットワークによる特徴抽出が効果的であった．これは，ネットワークの汎用性の高さを示しているものであり，事前学習のデータ量を増やすことでさらなる精度改善が期待できる．一方，音に関連の深い動作やシーンは現在のニューラルネットワークでは検出が難しいことが明らかとなった．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由前年度のシステムを改良出来た点と音響特徴量との相補性が示せた点から，研究はおおむね順調に進展している．
今後の研究の推進方策	今後の課題として，以下の２つが挙げられる． 1) 音と画像の統合するフレームワークの改良 2) より高精度な音響特徴量抽出方法の開発研究の進め方は次のとおりである．まず，1)では従来の音響特徴量を用いたシステムを基に，統合的な深層学習が可能かを検証する．次に，2)ではネットワーク自体の構造を変更する形で1)のシステムに組み込みつつ特徴抽出方法の開発を行う．

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件、謝辞記載あり 1件)

[雑誌論文] Semantic Indexing for Large-Scale Video Retrieval2016
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 雑誌名
  
  ITE Transactions on Media Technology and Applications
  
  巻: 4 ページ: 209-217
- DOI
  http://doi.org/10.3169/mta.4.209
- 査読あり / 謝辞記載あり