2015 年度実施状況報告書

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究課題

研究課題/領域番号	15K16019
研究機関	東京工業大学
研究代表者	井上中順東京工業大学, 情報理工学(系)研究科, 助教 (10733397)
研究期間 (年度)	2015-04-01 – 2019-03-31
キーワード	映像認識 / パターン認識
研究実績の概要	平成27年度は，画像とテキストを組み合わせたデータの意味的解析のフレームワークを深層学習を用いて作成し，映像認識での評価実験を行った．これは本研究の最終目標である可変モーダル型の深層学習の画像・テキスト部分に相当するものである．本成果は，国際会議ACM Multimediaおよび国際ワークショップTRECVIDで発表を行った．提案したフレームワークにより，これまで独立に研究開発されてきた画像・テキストの深層学習モデルを統合することが可能になった．実際，評価実験では，大規模画像データから学習したConvolutional Neural Network (CNN)と，大規模テキストデータから学習したSkip-gram (SG) modelを組み合わせたシステムを構築している．このシステムは，物体・動作・シーンを表す語の中から，画像の学習データがある語に対してCNNで検出器を学習し，その重み付き和で，学習データの無い語の検出器を構成するというもので，重み係数をSG modelから生成した単語ベクトルのベクトル間距離で算出している．その有用性はTRECVIDの大規模映像データセットで示している．本成果は画像・テキストの深層学習を統合できるという点で，多種多様な大規模データの解析に貢献するものであると言える．しかし，実験結果より，映像とテキストではデータの内容・質・量に差があることが明らかとなったため，その差を埋めることが直近の課題である．さらに，当初計画通り，映像中の音情報の解析へと研究を発展させることが必要である．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の計画通り，画像とテキストを統合したシステムを構築できたという点から，研究はおおむね順調に進展している．
今後の研究の推進方策	今後の課題として，以下の２つが挙げられる． 1) 画像とテキストデータの差を埋める適応手法の研究 2) 音と画像の深層学習を統合するフレームワークの作成研究の進め方として，まず本年度作成したシステムを改良する形で1)に取り組む．2)には，音響情報を取得する深層学習モデルを事前に構築する必要があるため，まず話者認識や音声認識の深層学習手法を映像認識に適用し，その後で今年度作成のシステムへと組み込む方針を取る．

研究成果
(3件)

すべて 2015

すべて雑誌論文 (1件) (うち査読あり 1件、謝辞記載あり 1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] Fast Coding of Feature Vectors using Neighbor-To-Neighbor Search2015
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 雑誌名
  
  IEEE Transactions on Pattern Analysis and Machine Intelligence
  
  巻: 99 ページ: 1-16
- DOI
  10.1109/TPAMI.2015.2481390
- 査読あり / 謝辞記載あり
[学会発表] 単語ベクトルによる語彙拡張を用いた映像のセマンティックインデクシング2015
- 著者名/発表者名
  井上中順, 篠田浩一
- 学会等名
  電子情報通信学会 PRMU研究会
- 発表場所
  信州大学
- 年月日
  2015-12-21 – 2015-12-21
[学会発表] Vocabulary Expansion Using Word Vectors for Video Semantic Indexing2015
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ACM Multimedia
- 発表場所
  Brisbane, AUS
- 年月日
  2015-10-26 – 2015-10-26
- 国際学会

2015 年度 実施状況報告書

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究代表者

井上 中順 東京工業大学, 情報理工学(系)研究科, 助教 (10733397)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Fast Coding of Feature Vectors using Neighbor-To-Neighbor Search2015

著者名/発表者名

雑誌名

DOI

[学会発表] 単語ベクトルによる語彙拡張を用いた映像のセマンティックインデクシング2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Vocabulary Expansion Using Word Vectors for Video Semantic Indexing2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

井上中順東京工業大学, 情報理工学(系)研究科, 助教 (10733397)