2015 Fiscal Year Research-status Report

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

Research Project

Project/Area Number	15K16019
Research Institution	Tokyo Institute of Technology
Principal Investigator	井上中順東京工業大学, 情報理工学(系)研究科, 助教 (10733397)
Project Period (FY)	2015-04-01 – 2019-03-31
Keywords	映像認識 / パターン認識
Outline of Annual Research Achievements	平成27年度は，画像とテキストを組み合わせたデータの意味的解析のフレームワークを深層学習を用いて作成し，映像認識での評価実験を行った．これは本研究の最終目標である可変モーダル型の深層学習の画像・テキスト部分に相当するものである．本成果は，国際会議ACM Multimediaおよび国際ワークショップTRECVIDで発表を行った．提案したフレームワークにより，これまで独立に研究開発されてきた画像・テキストの深層学習モデルを統合することが可能になった．実際，評価実験では，大規模画像データから学習したConvolutional Neural Network (CNN)と，大規模テキストデータから学習したSkip-gram (SG) modelを組み合わせたシステムを構築している．このシステムは，物体・動作・シーンを表す語の中から，画像の学習データがある語に対してCNNで検出器を学習し，その重み付き和で，学習データの無い語の検出器を構成するというもので，重み係数をSG modelから生成した単語ベクトルのベクトル間距離で算出している．その有用性はTRECVIDの大規模映像データセットで示している．本成果は画像・テキストの深層学習を統合できるという点で，多種多様な大規模データの解析に貢献するものであると言える．しかし，実験結果より，映像とテキストではデータの内容・質・量に差があることが明らかとなったため，その差を埋めることが直近の課題である．さらに，当初計画通り，映像中の音情報の解析へと研究を発展させることが必要である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画通り，画像とテキストを統合したシステムを構築できたという点から，研究はおおむね順調に進展している．
Strategy for Future Research Activity	今後の課題として，以下の２つが挙げられる． 1) 画像とテキストデータの差を埋める適応手法の研究 2) 音と画像の深層学習を統合するフレームワークの作成研究の進め方として，まず本年度作成したシステムを改良する形で1)に取り組む．2)には，音響情報を取得する深層学習モデルを事前に構築する必要があるため，まず話者認識や音声認識の深層学習手法を映像認識に適用し，その後で今年度作成のシステムへと組み込む方針を取る．

Research Products
(3 results)

All 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Acknowledgement Compliant: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Fast Coding of Feature Vectors using Neighbor-To-Neighbor Search2015
- Author(s)
  Nakamasa Inoue, Koichi Shinoda
- Journal Title
  
  IEEE Transactions on Pattern Analysis and Machine Intelligence
  
  Volume: 99 Pages: 1-16
- DOI
  10.1109/TPAMI.2015.2481390
- Peer Reviewed / Acknowledgement Compliant
[Presentation] 単語ベクトルによる語彙拡張を用いた映像のセマンティックインデクシング2015
- Author(s)
  井上中順, 篠田浩一
- Organizer
  電子情報通信学会 PRMU研究会
- Place of Presentation
  信州大学
- Year and Date
  2015-12-21 – 2015-12-21
[Presentation] Vocabulary Expansion Using Word Vectors for Video Semantic Indexing2015
- Author(s)
  Nakamasa Inoue, Koichi Shinoda
- Organizer
  ACM Multimedia
- Place of Presentation
  Brisbane, AUS
- Year and Date
  2015-10-26 – 2015-10-26
- Int'l Joint Research

2015 Fiscal Year Research-status Report

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

Principal Investigator

井上 中順 東京工業大学, 情報理工学(系)研究科, 助教 (10733397)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Fast Coding of Feature Vectors using Neighbor-To-Neighbor Search2015

Author(s)

Journal Title

DOI

[Presentation] 単語ベクトルによる語彙拡張を用いた映像のセマンティックインデクシング2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Vocabulary Expansion Using Word Vectors for Video Semantic Indexing2015

Author(s)

Organizer

Place of Presentation

Year and Date

井上中順東京工業大学, 情報理工学(系)研究科, 助教 (10733397)