• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

Multimodal time-sequence data recognition platform based on deep learning

Research Project

Project/Area Number 16H02845
Research InstitutionTokyo Institute of Technology

Principal Investigator

篠田 浩一  東京工業大学, 情報理工学院, 教授 (10343097)

Co-Investigator(Kenkyū-buntansha) 井上 中順  東京工業大学, 情報理工学院, 助教 (10733397)
岩野 公司  東京都市大学, メディア情報学部, 教授 (90323823)
Project Period (FY) 2016-04-01 – 2019-03-31
Keywords知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習
Outline of Annual Research Achievements

本研究では、音声や動画像などからなるマルチモーダルの時系列データから有用な情報を抽出するための、深層学習を用いた高性能な情報検索基盤を構築することを目的としている。
今年度は、前年度に引き続き、音声認識の研究と動画像からのイベント抽出の研究を進めた。音声認識では,昨年度から行ってきた、複数話者の音声を分離するDNNと音声認識DNNを統合して学習するEnd-to-End学習の枠組みをさらに発展させて高性能化し、国際会議で発表した。また、Denoising Autoencoderを用いた耐雑音技術において、雑音下音声から音声を抽出するタスクと雑音を抽出するタスクの2つのタスクを同時に行う、マルチタスク学習を行い、従来法に比べ高い認識性能を得ることができた。さらに、これらの成果を音楽情報処理に応用した。より具体的には、複数楽器からなる楽曲演奏からの自動採譜において、予め学習した楽器毎のRNN音響モデルを組み合わせることで、楽器種と音高とを同時に推定する方式を開発した。加えて、口唇の深度画像の時系列信号と音声の時系列信号をともに用いることで音声認識の性能を向上させる方式を開発した。
動画からのイベント検出では、従来から行ってきたRNNの研究に対して、Connectionist Tempral Classification (CTC)を適用し、ラベル境界を必要としない認識技術を開発した。特に人間の身振り認識において、連続する動作において動作間の関係をn-gramでモデル化することにより、従来より高い性能を得ることができた。NISTが主催するTRECVIDワークショップの映像からのイベント検出のタスクにおいて世界2位の結果を得た。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

耐雑音音声認識の課題において、研究協力者の転出により開発が遅延したが、翌年に繰り越して課題を遂行し、無事本年度の目的を達成することができた。

Strategy for Future Research Activity

当初の計画通り、音声認識、マルチメディアイベント認識の性能向上を目指した方式開発を行う。

  • Research Products

    (14 results)

All 2018 2017

All Presentation (13 results) (of which Int'l Joint Research: 5 results,  Invited: 3 results) Book (1 results)

  • [Presentation] 全層ゲート付き2次元畳み込みネットワークによる多重音信号の音高認識2018

    • Author(s)
      生田目 敬弘, 亀岡 弘和, 篠田 浩一
    • Organizer
      研究報告音声言語情報処理(SLP)
  • [Presentation] Multi-Task Autoencoder for Noise-Robust Speech Recognition2018

    • Author(s)
      Haoyi Zhang, Conggui Liu, Nakamasa Inoue, Koichi Shinoda
    • Organizer
      ICASSP
    • Int'l Joint Research
  • [Presentation] Video Information Retrieval2017

    • Author(s)
      Koichi Shinoda
    • Organizer
      The 2017 IEEE SPS Summer School on Visual Image Search and Visual Analytics (VISVA2017)
    • Invited
  • [Presentation] 口唇の深度画像を用いたディープオートエンコーダによるマルチモーダル音声認識2017

    • Author(s)
      安井勇樹, 岩野 公司, 井上 中順, 篠田 浩一
    • Organizer
      情報処理学会研究報告 SLP
  • [Presentation] Joint training of speaker separation and speech recognit ion based on deep learning2017

    • Author(s)
      Conggui Liu, Nakamasa Inoue, Koichi Shinoda
    • Organizer
      ASJ 2017 Autumn Meeting
  • [Presentation] 口唇深度画像を利用したディープオートエンコーダに基づくマルチモーダル音声認識2017

    • Author(s)
      安井 勇樹, 岩野 公司, 井上 中順, 篠田 浩一
    • Organizer
      日本音響学会2017年秋季研究発表会講演論文集
  • [Presentation] 深層学習の音声認識への応用2017

    • Author(s)
      篠田 浩一
    • Organizer
      情報処理学会連続セミナー2017 第4回ディープラーニングの活用と基盤
    • Invited
  • [Presentation] CTC Network with Statistical Language Modeling for Action Sequence Recognition in Videos2017

    • Author(s)
      Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
    • Organizer
      ACM Multimedia Thematic Workshop
    • Int'l Joint Research
  • [Presentation] TokyoTech-AIST at TRECVID 2017: Multimedia Event Detection Using Deep CNNs and Zero-Shot Classifiers2017

    • Author(s)
      Nakamasa Inoue, Ryosuke Yamamoto, Na Rong, Satoshi Kanai, Junsuke Masada, Chihiro Shiraishi, Shi-wook Lee, Koichi Shinoda
    • Organizer
      TRECVID workshop
    • Int'l Joint Research
  • [Presentation] Multimodal Speech Recognition Using Mouth Images from Depth Camera2017

    • Author(s)
      Yuki Yasui, Nakamasa Inoue, Koji Iwano, Koichi Shinoda
    • Organizer
      APSIPA
    • Int'l Joint Research
  • [Presentation] A Unified Network for Multi-Speaker Speech Recognition with Multi-Channel Recordings2017

    • Author(s)
      Conggui Liu, Nakamasa Inoue, Koichi Shinoda
    • Organizer
      APSIPA
    • Int'l Joint Research
  • [Presentation] 高速かつ省資源な深層学習の実現に向けて2017

    • Author(s)
      篠田 浩一
    • Organizer
      JST・NSF国際連携シンポジウム
    • Invited
  • [Presentation] Action Sequence Recognition in Videos by Combining a CTC Network with a Statistical Language Model2017

    • Author(s)
      Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
    • Organizer
      Technical Reports of IEICE PRMU
  • [Book] 音声認識 (機械学習プロフェッショナルシリーズ)2017

    • Author(s)
      篠田 浩一
    • Total Pages
      165
    • Publisher
      講談社
    • ISBN
      9784061529274

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi