2017 Fiscal Year Annual Research Report

Multimodal time-sequence data recognition platform based on deep learning

Research Project

Project/Area Number	16H02845
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)
Co-Investigator(Kenkyū-buntansha)	井上中順東京工業大学, 情報理工学院, 助教 (10733397) 岩野公司東京都市大学, メディア情報学部, 教授 (90323823)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習
Outline of Annual Research Achievements	本研究では、音声や動画像などからなるマルチモーダルの時系列データから有用な情報を抽出するための、深層学習を用いた高性能な情報検索基盤を構築することを目的としている。今年度は、前年度に引き続き、音声認識の研究と動画像からのイベント抽出の研究を進めた。音声認識では，昨年度から行ってきた、複数話者の音声を分離するDNNと音声認識DNNを統合して学習するEnd-to-End学習の枠組みをさらに発展させて高性能化し、国際会議で発表した。また、Denoising Autoencoderを用いた耐雑音技術において、雑音下音声から音声を抽出するタスクと雑音を抽出するタスクの2つのタスクを同時に行う、マルチタスク学習を行い、従来法に比べ高い認識性能を得ることができた。さらに、これらの成果を音楽情報処理に応用した。より具体的には、複数楽器からなる楽曲演奏からの自動採譜において、予め学習した楽器毎のRNN音響モデルを組み合わせることで、楽器種と音高とを同時に推定する方式を開発した。加えて、口唇の深度画像の時系列信号と音声の時系列信号をともに用いることで音声認識の性能を向上させる方式を開発した。動画からのイベント検出では、従来から行ってきたRNNの研究に対して、Connectionist Tempral Classification (CTC)を適用し、ラベル境界を必要としない認識技術を開発した。特に人間の身振り認識において、連続する動作において動作間の関係をn-gramでモデル化することにより、従来より高い性能を得ることができた。NISTが主催するTRECVIDワークショップの映像からのイベント検出のタスクにおいて世界2位の結果を得た。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 耐雑音音声認識の課題において、研究協力者の転出により開発が遅延したが、翌年に繰り越して課題を遂行し、無事本年度の目的を達成することができた。
Strategy for Future Research Activity	当初の計画通り、音声認識、マルチメディアイベント認識の性能向上を目指した方式開発を行う。

Research Products
(14 results)

All 2018 2017

All Presentation (13 results) (of which Int'l Joint Research: 5 results, Invited: 3 results) Book (1 results)

[Presentation] 全層ゲート付き2次元畳み込みネットワークによる多重音信号の音高認識2018
- Author(s)
  生田目敬弘, 亀岡弘和, 篠田浩一
- Organizer
  研究報告音声言語情報処理（SLP）
[Presentation] Multi-Task Autoencoder for Noise-Robust Speech Recognition2018
- Author(s)
  Haoyi Zhang, Conggui Liu, Nakamasa Inoue, Koichi Shinoda
- Organizer
  ICASSP
- Int'l Joint Research
[Presentation] Video Information Retrieval2017
- Author(s)
  Koichi Shinoda
- Organizer
  The 2017 IEEE SPS Summer School on Visual Image Search and Visual Analytics (VISVA2017)
- Invited
[Presentation] 口唇の深度画像を用いたディープオートエンコーダによるマルチモーダル音声認識2017
- Author(s)
  安井勇樹, 岩野公司, 井上中順, 篠田浩一
- Organizer
  情報処理学会研究報告 SLP
[Presentation] Joint training of speaker separation and speech recognit ion based on deep learning2017
- Author(s)
  Conggui Liu, Nakamasa Inoue, Koichi Shinoda
- Organizer
  ASJ 2017 Autumn Meeting
[Presentation] 口唇深度画像を利用したディープオートエンコーダに基づくマルチモーダル音声認識2017
- Author(s)
  安井勇樹, 岩野公司, 井上中順, 篠田浩一
- Organizer
  日本音響学会2017年秋季研究発表会講演論文集
[Presentation] 深層学習の音声認識への応用2017
- Author(s)
  篠田浩一
- Organizer
  情報処理学会連続セミナー2017 第4回ディープラーニングの活用と基盤
- Invited
[Presentation] CTC Network with Statistical Language Modeling for Action Sequence Recognition in Videos2017
- Author(s)
  Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
- Organizer
  ACM Multimedia Thematic Workshop
- Int'l Joint Research
[Presentation] TokyoTech-AIST at TRECVID 2017: Multimedia Event Detection Using Deep CNNs and Zero-Shot Classifiers2017
- Author(s)
  Nakamasa Inoue, Ryosuke Yamamoto, Na Rong, Satoshi Kanai, Junsuke Masada, Chihiro Shiraishi, Shi-wook Lee, Koichi Shinoda
- Organizer
  TRECVID workshop
- Int'l Joint Research
[Presentation] Multimodal Speech Recognition Using Mouth Images from Depth Camera2017
- Author(s)
  Yuki Yasui, Nakamasa Inoue, Koji Iwano, Koichi Shinoda
- Organizer
  APSIPA
- Int'l Joint Research
[Presentation] A Unified Network for Multi-Speaker Speech Recognition with Multi-Channel Recordings2017
- Author(s)
  Conggui Liu, Nakamasa Inoue, Koichi Shinoda
- Organizer
  APSIPA
- Int'l Joint Research
[Presentation] 高速かつ省資源な深層学習の実現に向けて2017
- Author(s)
  篠田浩一
- Organizer
  JST・NSF国際連携シンポジウム
- Invited
[Presentation] Action Sequence Recognition in Videos by Combining a CTC Network with a Statistical Language Model2017
- Author(s)
  Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
- Organizer
  Technical Reports of IEICE PRMU
[Book] 音声認識 (機械学習プロフェッショナルシリーズ)2017
- Author(s)
  篠田浩一
- Total Pages
  165
- Publisher
  講談社
- ISBN
  9784061529274

2017 Fiscal Year Annual Research Report

Multimodal time-sequence data recognition platform based on deep learning

Principal Investigator

篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)

Current Status of Research Progress

Reason

Research Products

[Presentation] 全層ゲート付き2次元畳み込みネットワークによる多重音信号の音高認識2018

Author(s)

Organizer

[Presentation] Multi-Task Autoencoder for Noise-Robust Speech Recognition2018

Author(s)

Organizer

[Presentation] Video Information Retrieval2017

Author(s)

Organizer

[Presentation] 口唇の深度画像を用いたディープオートエンコーダによるマルチモーダル音声認識2017

Author(s)

Organizer

[Presentation] Joint training of speaker separation and speech recognit ion based on deep learning2017

Author(s)

Organizer

[Presentation] 口唇深度画像を利用したディープオートエンコーダに基づくマルチモーダル音声認識2017

Author(s)

Organizer

[Presentation] 深層学習の音声認識への応用2017

Author(s)

Organizer

[Presentation] CTC Network with Statistical Language Modeling for Action Sequence Recognition in Videos2017

Author(s)

Organizer

[Presentation] TokyoTech-AIST at TRECVID 2017: Multimedia Event Detection Using Deep CNNs and Zero-Shot Classifiers2017

Author(s)

Organizer

[Presentation] Multimodal Speech Recognition Using Mouth Images from Depth Camera2017

Author(s)

Organizer

[Presentation] A Unified Network for Multi-Speaker Speech Recognition with Multi-Channel Recordings2017

Author(s)

Organizer

[Presentation] 高速かつ省資源な深層学習の実現に向けて2017

Author(s)

Organizer

[Presentation] Action Sequence Recognition in Videos by Combining a CTC Network with a Statistical Language Model2017

Author(s)

Organizer

[Book] 音声認識 (機械学習プロフェッショナルシリーズ)2017

Author(s)

Total Pages

Publisher

ISBN

篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)