• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Final Research Report

Multimodal time-sequence data recognition platform based on deep learning

Research Project

  • PDF
Project/Area Number 16H02845
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Research Field Perceptual information processing
Research InstitutionTokyo Institute of Technology

Principal Investigator

Shinoda Koichi  東京工業大学, 情報理工学院, 教授 (10343097)

Co-Investigator(Kenkyū-buntansha) 井上 中順  東京工業大学, 情報理工学院, 助教 (10733397)
岩野 公司  東京都市大学, メディア情報学部, 教授 (90323823)
Project Period (FY) 2016-04-01 – 2019-03-31
Keywords知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習
Outline of Final Research Achievements

This research aims to accurately recognize multi-modal time-sequence signals using deep learning. We applied various deep learning techniques such as End-to-end training, deep net which is trainable with a small amount of data, multi-task learning, and noise-robust recognition. Particularly, we improved the recognition and detection performance in simultaneous training for source separation and speech recognition, dementia detection from speech, multi-modal speech recognition using lip reading, noise-robust speech recognition.

Free Research Field

統計的パターン認識

Academic Significance and Societal Importance of the Research Achievements

深層学習はこの十年ほど画像認識や音声認識の標準的な技術となった。しかしながら、人間のもつ事前知識の活用、周囲環境の違いや話者の違いなどによる性能の劣化、学習のための大量のデータが得られない応用への適用、などの点においてまだ課題が多い。本研究では、これらの問題を解決する鍵となる、End-to-End学習、少ないデータからの効率的なモデル学習、マルチタスク学習、耐ノイズ認識の方式を提案し、一定の成果を得ることができた。これらの成果は実社会における様々な問題に対して容易に適用可能である。

URL: 

Published: 2020-03-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi