• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

Research Project

Project/Area Number 15K16019
Research InstitutionTokyo Institute of Technology

Principal Investigator

井上 中順  東京工業大学, 情報理工学(系)研究科, 助教 (10733397)

Project Period (FY) 2015-04-01 – 2019-03-31
Keywords映像認識 / パターン認識
Outline of Annual Research Achievements

平成27年度は,画像とテキストを組み合わせたデータの意味的解析のフレームワークを深層学習を用いて作成し,映像認識での評価実験を行った.これは本研究の最終目標である可変モーダル型の深層学習の画像・テキスト部分に相当するものである.本成果は,国際会議ACM Multimediaおよび国際ワークショップTRECVIDで発表を行った.
提案したフレームワークにより,これまで独立に研究開発されてきた画像・テキストの深層学習モデルを統合することが可能になった.実際,評価実験では,大規模画像データから学習したConvolutional Neural Network (CNN)と,大規模テキストデータから学習したSkip-gram (SG) modelを組み合わせたシステムを構築している.このシステムは,物体・動作・シーンを表す語の中から,画像の学習データがある語に対してCNNで検出器を学習し,その重み付き和で,学習データの無い語の検出器を構成するというもので,重み係数をSG modelから生成した単語ベクトルのベクトル間距離で算出している.その有用性はTRECVIDの大規模映像データセットで示している.
本成果は画像・テキストの深層学習を統合できるという点で,多種多様な大規模データの解析に貢献するものであると言える.しかし,実験結果より,映像とテキストではデータの内容・質・量に差があることが明らかとなったため,その差を埋めることが直近の課題である.さらに,当初計画通り,映像中の音情報の解析へと研究を発展させることが必要である.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初の計画通り,画像とテキストを統合したシステムを構築できたという点から,研究はおおむね順調に進展している.

Strategy for Future Research Activity

今後の課題として,以下の2つが挙げられる.
1) 画像とテキストデータの差を埋める適応手法の研究
2) 音と画像の深層学習を統合するフレームワークの作成
研究の進め方として,まず本年度作成したシステムを改良する形で1)に取り組む.2)には,音響情報を取得する深層学習モデルを事前に構築する必要があるため,まず話者認識や音声認識の深層学習手法を映像認識に適用し,その後で今年度作成のシステムへと組み込む方針を取る.

  • Research Products

    (3 results)

All 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Acknowledgement Compliant: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Fast Coding of Feature Vectors using Neighbor-To-Neighbor Search2015

    • Author(s)
      Nakamasa Inoue, Koichi Shinoda
    • Journal Title

      IEEE Transactions on Pattern Analysis and Machine Intelligence

      Volume: 99 Pages: 1-16

    • DOI

      10.1109/TPAMI.2015.2481390

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] 単語ベクトルによる語彙拡張を用いた映像のセマンティックインデクシング2015

    • Author(s)
      井上 中順, 篠田 浩一
    • Organizer
      電子情報通信学会 PRMU研究会
    • Place of Presentation
      信州大学
    • Year and Date
      2015-12-21 – 2015-12-21
  • [Presentation] Vocabulary Expansion Using Word Vectors for Video Semantic Indexing2015

    • Author(s)
      Nakamasa Inoue, Koichi Shinoda
    • Organizer
      ACM Multimedia
    • Place of Presentation
      Brisbane, AUS
    • Year and Date
      2015-10-26 – 2015-10-26
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi