深層学習によるマルチモーダル時系列データ認識基盤の構築

研究課題

研究課題/領域番号	16H02845
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	知覚情報処理
研究機関	東京工業大学
研究代表者	篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)
研究分担者	井上中順東京工業大学, 情報理工学院, 助教 (10733397) 岩野公司東京都市大学, メディア情報学部, 教授 (90323823)
研究期間 (年度)	2016-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	15,990千円 (直接経費: 12,300千円、間接経費: 3,690千円) 2018年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円) 2017年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円) 2016年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)
キーワード	知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習
研究成果の概要	本研究では深層学習を用いてマルチモーダル時系列信号を高精度に認識することを目的とした。深層学習におけるEnd-to-End学習方式、少ないデータ量でも動作する深層モデル、マルチタスク学習、耐ノイズ認識などの手法を開発した。特に、音源分離と音声認識の同時学習、音声からの認知症診断、口唇画像を用いたマルチモーダル認識、耐雑音音声認識、の4つのテーマについてこれらの技術を適用し、各々の応用において、識別性能、検出性能を改善することができた。
研究成果の学術的意義や社会的意義	深層学習はこの十年ほど画像認識や音声認識の標準的な技術となった。しかしながら、人間のもつ事前知識の活用、周囲環境の違いや話者の違いなどによる性能の劣化、学習のための大量のデータが得られない応用への適用、などの点においてまだ課題が多い。本研究では、これらの問題を解決する鍵となる、End-to-End学習、少ないデータからの効率的なモデル学習、マルチタスク学習、耐ノイズ認識の方式を提案し、一定の成果を得ることができた。これらの成果は実社会における様々な問題に対して容易に適用可能である。

報告書

(4件)

研究成果
(41件)

すべて 2019 2018 2017 2016

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 2件、謝辞記載あり 1件) 学会発表 (37件) (うち国際学会 17件、招待講演 9件) 図書 (1件)

[雑誌論文] 音声言語処理における深層学習：総説2017
- 著者名/発表者名
  篠田浩一
- 雑誌名
  
  日本音響学会誌
  
  巻: 73 ページ: 25-30
- NAID
  130007355576
- 関連する報告書
  2016 実績報告書
- 査読あり / 謝辞記載あり
[雑誌論文] [Invited Paper] Semantic Indexing for Large-Scale Video Retrieval2016
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 雑誌名
  
  ITE Transactions on Media Technology and Applications
  
  巻: 4 号: 3 ページ: 209-217
- DOI
  10.3169/mta.4.209
- NAID
  130005161897
- ISSN
  2186-7364
- 関連する報告書
  2016 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Wise Teachers Train Better DNN Acoustic Models2016
- 著者名/発表者名
  R. Price, K. Iso, K. Shinoda
- 雑誌名
  
  EURASIP Journal on Audio Speech and Music Processing
  
  巻: 2016 号: 1 ページ: 1-19
- DOI
  10.1186/s13636-016-0088-7
- NAID
  120006582513
- 関連する報告書
  2016 実績報告書
- 査読あり / オープンアクセス
[学会発表] 情報理工学の現状と将来2019
- 著者名/発表者名
  篠田浩一
- 学会等名
  第40回蔵前科学技術セミナー
- 関連する報告書
  2018 実績報告書
- 招待講演
[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2019
- 著者名/発表者名
  Tifani Warnita, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  情報処理学会研究報告 SLP
- 関連する報告書
  2018 実績報告書
[学会発表] A robust algorithm of phase recovery for speech enhancement2019
- 著者名/発表者名
  Dongxiao Wang, Hirokazu Kameoka, Koichi Shinoda
- 学会等名
  電子情報通信学会技術研究報告 SP
- 関連する報告書
  2018 実績報告書
[学会発表] Improving the robustness of multiple input spectrogram inversion2019
- 著者名/発表者名
  Dongxiao Wang, Hirokazu Kameoka, Koichi Shinoda
- 学会等名
  日本音響学会2019年春季研究発表会講演論文集
- 関連する報告書
  2018 実績報告書
[学会発表] SEQUENCE-LEVEL KNOWLEDGE DISTILLATION FOR MODEL COMPRESSION OF ATTENTION-BASED SEQUENCE-TO-SEQUENCE SPEECH RECOGNITION2019
- 著者名/発表者名
  Raden Mu’az Mun’im, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ICASSP2019
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] 深層学習のためのCo-Design2018
- 著者名/発表者名
  篠田浩一
- 学会等名
  電子情報通信学会技術研究報告 SP/PRMU
- 関連する報告書
  2018 実績報告書
- 招待講演
[学会発表] 単語分散表現を用いた動画からのイベント検出2018
- 著者名/発表者名
  金井怜, 井上中順, 李時旭, 篠田浩一
- 学会等名
  第21回画像の認識・理解シンポジウム (MIRU)
- 関連する報告書
  2018 実績報告書
[学会発表] Astronomical Image Subtraction for Transient Detection Using CNN2018
- 著者名/発表者名
  Yan Long, Nakamasa Inoue, Koichi Shinoda, Yoichi Yatsu, Ryosuke Itoh, Nobuyuki Kawai
- 学会等名
  The 21st Meeting on Image Recognition and Understanding (MIRU)
- 関連する報告書
  2018 実績報告書
[学会発表] Alzheimer's Disease Prediction Using Audio Gated Convolutional Neural Network2018
- 著者名/発表者名
  Tifani Warnita, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ASJ 2018 Autumn Meeting
- 関連する報告書
  2018 実績報告書
[学会発表] Generative Adversarial Network Based i-Vector Transformation for Short Utterance Speaker Verification2018
- 著者名/発表者名
  Jiacen Zhang, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ASJ 2018 Autumn Meeting
- 関連する報告書
  2018 実績報告書
[学会発表] A Fine-to-Coarse Convolutional Neural Network for 3D Human Action Recognition2018
- 著者名/発表者名
  Thao Minh Le, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  British Machine Vision Conference (BMVC)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2018
- 著者名/発表者名
  Tifani Warnita, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  Interspeech
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification2018
- 著者名/発表者名
  Jiacen Zhang, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  Interspeech
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Few-Shot Adaptation for Multimedia Semantic Indexing2018
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ACM Multimedia
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] VANT at TRECVID 20182018
- 著者名/発表者名
  Nakamasa Inoue, Chihiro Shiraishi, Aleksandr Drozd, Koichi Shinoda, Shi-wook Lee, Alex Chichung Kot
- 学会等名
  TRECVID workshop
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Skeleton-based Human Action Recognition with Fine-to-Coarse Convolutional Neural Network2018
- 著者名/発表者名
  Thao Minh Le, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  Technical Reports of IEICE PRMU
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] The NEC-TT Speaker Verification System for SRE’182018
- 著者名/発表者名
  K. A. Lee, H. Yamamoto, K. Okabe, Q. Wang, L. Guo, T. Koshinaka, J. Zhang, K. Shinoda
- 学会等名
  NIST 2018 Speaker Recognition Evaluation
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] 全層ゲート付き2次元畳み込みネットワークによる多重音信号の音高認識2018
- 著者名/発表者名
  生田目敬弘, 亀岡弘和, 篠田浩一
- 学会等名
  研究報告音声言語情報処理（SLP）
- 関連する報告書
  2017 実績報告書
[学会発表] Multi-Task Autoencoder for Noise-Robust Speech Recognition2018
- 著者名/発表者名
  Haoyi Zhang, Conggui Liu, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ICASSP
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] Speaker Separation in Multi-Channel Environment Using Deep Learning2017
- 著者名/発表者名
  Conggui Liu, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  琴平グランドホテル桜の抄, 香川県琴平町
- 年月日
  2017-02-17
- 関連する報告書
  2016 実績報告書
[学会発表] Video Information Retrieval2017
- 著者名/発表者名
  Koichi Shinoda
- 学会等名
  The 2017 IEEE SPS Summer School on Visual Image Search and Visual Analytics (VISVA2017)
- 関連する報告書
  2017 実績報告書
- 招待講演
[学会発表] 口唇の深度画像を用いたディープオートエンコーダによるマルチモーダル音声認識2017
- 著者名/発表者名
  安井勇樹, 岩野公司, 井上中順, 篠田浩一
- 学会等名
  情報処理学会研究報告 SLP
- 関連する報告書
  2017 実績報告書
[学会発表] Joint training of speaker separation and speech recognit ion based on deep learning2017
- 著者名/発表者名
  Conggui Liu, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ASJ 2017 Autumn Meeting
- 関連する報告書
  2017 実績報告書
[学会発表] 口唇深度画像を利用したディープオートエンコーダに基づくマルチモーダル音声認識2017
- 著者名/発表者名
  安井勇樹, 岩野公司, 井上中順, 篠田浩一
- 学会等名
  日本音響学会2017年秋季研究発表会講演論文集
- 関連する報告書
  2017 実績報告書
[学会発表] 深層学習の音声認識への応用2017
- 著者名/発表者名
  篠田浩一
- 学会等名
  情報処理学会連続セミナー2017 第4回ディープラーニングの活用と基盤
- 関連する報告書
  2017 実績報告書
- 招待講演
[学会発表] CTC Network with Statistical Language Modeling for Action Sequence Recognition in Videos2017
- 著者名/発表者名
  Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ACM Multimedia Thematic Workshop
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] TokyoTech-AIST at TRECVID 2017: Multimedia Event Detection Using Deep CNNs and Zero-Shot Classifiers2017
- 著者名/発表者名
  Nakamasa Inoue, Ryosuke Yamamoto, Na Rong, Satoshi Kanai, Junsuke Masada, Chihiro Shiraishi, Shi-wook Lee, Koichi Shinoda
- 学会等名
  TRECVID workshop
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] Multimodal Speech Recognition Using Mouth Images from Depth Camera2017
- 著者名/発表者名
  Yuki Yasui, Nakamasa Inoue, Koji Iwano, Koichi Shinoda
- 学会等名
  APSIPA
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] A Unified Network for Multi-Speaker Speech Recognition with Multi-Channel Recordings2017
- 著者名/発表者名
  Conggui Liu, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  APSIPA
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] 高速かつ省資源な深層学習の実現に向けて2017
- 著者名/発表者名
  篠田浩一
- 学会等名
  JST・NSF国際連携シンポジウム
- 関連する報告書
  2017 実績報告書
- 招待講演
[学会発表] Action Sequence Recognition in Videos by Combining a CTC Network with a Statistical Language Model2017
- 著者名/発表者名
  Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  Technical Reports of IEICE PRMU
- 関連する報告書
  2017 実績報告書
[学会発表] Video Semantic Indexing and Localization2016
- 著者名/発表者名
  Koichi Shinoda
- 学会等名
  5th Joint Meeting of the Acoustical Society of America and the Acoustical Society of Japan
- 発表場所
  Hilton Hawaiian Village, Honolulu, USA
- 年月日
  2016-11-28
- 関連する報告書
  2016 実績報告書
- 国際学会 / 招待講演
[学会発表] TokyoTech at TRECVID 20162016
- 著者名/発表者名
  Nakamasa Inoue, Ryosuke Yamamoto, Na Rong, Koichi Shinoda
- 学会等名
  NIST TRECVID workshop
- 発表場所
  NIST, Gaithersburg, MA, USA
- 年月日
  2016-11-14
- 関連する報告書
  2016 実績報告書
- 国際学会 / 招待講演
[学会発表] Adaptation of Word Vectors using Tree Structure for Visual Semantics2016
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ACM Multimedia 2016
- 発表場所
  Theater Tuschinski, アムステルダム
- 年月日
  2016-10-15
- 関連する報告書
  2016 実績報告書
- 国際学会
[学会発表] Concept Elimination for Zero-Shot Event Detection2016
- 著者名/発表者名
  Tran Hai Dang, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  The 22nd Symposium on Sensing via Image Information (SSII)
- 発表場所
  パシフィコ横浜アネックス, 横浜市
- 年月日
  2016-06-08
- 関連する報告書
  2016 実績報告書
[学会発表] Deep Learning for Speech, Image, and Video2016
- 著者名/発表者名
  Koichi Shinoda
- 学会等名
  International Conference on Computer, Control, Informatics, and Its Applications (IC3INA)
- 発表場所
  Indonesia Convention Exhibition (ICE), Tangerang, Indonesia
- 関連する報告書
  2016 実績報告書
- 国際学会 / 招待講演
[学会発表] 東工大TSUBAMEの活用事例：マルチメディア認識のための深層学習2016
- 著者名/発表者名
  篠田浩一
- 学会等名
  GTC Japan 2016
- 発表場所
  ヒルトン東京お台場, 東京都港区
- 関連する報告書
  2016 実績報告書
- 招待講演
[図書] 音声認識 (機械学習プロフェッショナルシリーズ)2017
- 著者名/発表者名
  篠田浩一
- 総ページ数
  165
- 出版者
  講談社
- ISBN
  9784061529274
- 関連する報告書
  2017 実績報告書

深層学習によるマルチモーダル時系列データ認識基盤の構築

研究代表者

篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)

15,990千円 (直接経費: 12,300千円、間接経費: 3,690千円)

報告書

研究成果

[雑誌論文] 音声言語処理における深層学習：総説2017

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] [Invited Paper] Semantic Indexing for Large-Scale Video Retrieval2016

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[雑誌論文] Wise Teachers Train Better DNN Acoustic Models2016

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[学会発表] 情報理工学の現状と将来2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] A robust algorithm of phase recovery for speech enhancement2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Improving the robustness of multiple input spectrogram inversion2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] SEQUENCE-LEVEL KNOWLEDGE DISTILLATION FOR MODEL COMPRESSION OF ATTENTION-BASED SEQUENCE-TO-SEQUENCE SPEECH RECOGNITION2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層学習のためのCo-Design2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 単語分散表現を用いた動画からのイベント検出2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Astronomical Image Subtraction for Transient Detection Using CNN2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Alzheimer's Disease Prediction Using Audio Gated Convolutional Neural Network2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Generative Adversarial Network Based i-Vector Transformation for Short Utterance Speaker Verification2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Fine-to-Coarse Convolutional Neural Network for 3D Human Action Recognition2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Few-Shot Adaptation for Multimedia Semantic Indexing2018

著者名/発表者名

学会等名

関連する報告書

篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)