2018 年度実績報告書

深層学習によるマルチモーダル時系列データ認識基盤の構築

研究課題

研究課題/領域番号	16H02845
研究機関	東京工業大学
研究代表者	篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)
研究分担者	井上中順東京工業大学, 情報理工学院, 助教 (10733397) 岩野公司東京都市大学, メディア情報学部, 教授 (90323823)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習
研究実績の概要	本研究では、音声や動画像などからなるマルチモーダルの時系列データから有用な情報を抽出するための、深層学習を用いた高性能な情報検索基盤を構築することを目的としている。特にEnd-to-endな音声処理・動画処理を実現することを目的としている。音声の研究では，従来の音声認識を対象とした研究とは別に、音声から感情や健康状態等などのパラ言語情報を獲得する研究に取り組んだ。従来音声認識で用いてきたRNNの代わりに、Gated CNNを用いることにより、より少量の学習データで、効率的な学習が可能な、Gated CNNを用いる手法を開発した。音声からの(書き起こしを用いない)認知症診断で高性能な識別結果を得た。時系列データの認識にGated CNNが有効であることを確認した。国際会議Interspeech2018で成果を発表した。また、従来のend-to-end音声認識の研究において、RNNに注意機構(attention)を実装し、また、その注意機構付きRNNを蒸留処理により小型化した。従来よりも10分の1のモデルサイズを達成した。認識率の劣化は7%に留まった。動画像の認識では、動画をセグメントに分け、各々のセグメントに対してCNNを適用する方式を開発した。特に、人間の骨格構造に特化したCNNを、深度カメラの動画像からの身振り認識に適用した。カメラの撮像角度が異なる動画像が含まれるデータベースの評価において、その時点での世界最高性能を得ることができた。国際会議BMVC2018にて成果を発表した。
現在までの達成度 (段落)	平成30年度が最終年度であるため、記入しない。
今後の研究の推進方策	平成30年度が最終年度であるため、記入しない。

研究成果
(17件)

すべて 2019 2018

すべて学会発表 (17件) (うち国際学会 8件、招待講演 2件)

[学会発表] 情報理工学の現状と将来2019
- 著者名/発表者名
  篠田浩一
- 学会等名
  第40回蔵前科学技術セミナー
- 招待講演
[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2019
- 著者名/発表者名
  Tifani Warnita, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  情報処理学会研究報告 SLP
[学会発表] A robust algorithm of phase recovery for speech enhancement2019
- 著者名/発表者名
  Dongxiao Wang, Hirokazu Kameoka, Koichi Shinoda
- 学会等名
  電子情報通信学会技術研究報告 SP
[学会発表] Improving the robustness of multiple input spectrogram inversion2019
- 著者名/発表者名
  Dongxiao Wang, Hirokazu Kameoka, Koichi Shinoda
- 学会等名
  日本音響学会2019年春季研究発表会講演論文集
[学会発表] SEQUENCE-LEVEL KNOWLEDGE DISTILLATION FOR MODEL COMPRESSION OF ATTENTION-BASED SEQUENCE-TO-SEQUENCE SPEECH RECOGNITION2019
- 著者名/発表者名
  Raden Mu’az Mun’im, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ICASSP2019
- 国際学会
[学会発表] 深層学習のためのCo-Design2018
- 著者名/発表者名
  篠田浩一
- 学会等名
  電子情報通信学会技術研究報告 SP/PRMU
- 招待講演
[学会発表] 単語分散表現を用いた動画からのイベント検出2018
- 著者名/発表者名
  金井怜, 井上中順, 李時旭, 篠田浩一
- 学会等名
  第21回画像の認識・理解シンポジウム (MIRU)
[学会発表] Astronomical Image Subtraction for Transient Detection Using CNN2018
- 著者名/発表者名
  Yan Long, Nakamasa Inoue, Koichi Shinoda, Yoichi Yatsu, Ryosuke Itoh, Nobuyuki Kawai
- 学会等名
  The 21st Meeting on Image Recognition and Understanding (MIRU)
[学会発表] Alzheimer's Disease Prediction Using Audio Gated Convolutional Neural Network2018
- 著者名/発表者名
  Tifani Warnita, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ASJ 2018 Autumn Meeting
[学会発表] Generative Adversarial Network Based i-Vector Transformation for Short Utterance Speaker Verification2018
- 著者名/発表者名
  Jiacen Zhang, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ASJ 2018 Autumn Meeting
[学会発表] A Fine-to-Coarse Convolutional Neural Network for 3D Human Action Recognition2018
- 著者名/発表者名
  Thao Minh Le, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  British Machine Vision Conference (BMVC)
- 国際学会
[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2018
- 著者名/発表者名
  Tifani Warnita, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  Interspeech
- 国際学会
[学会発表] I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification2018
- 著者名/発表者名
  Jiacen Zhang, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  Interspeech
- 国際学会
[学会発表] Few-Shot Adaptation for Multimedia Semantic Indexing2018
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ACM Multimedia
- 国際学会
[学会発表] VANT at TRECVID 20182018
- 著者名/発表者名
  Nakamasa Inoue, Chihiro Shiraishi, Aleksandr Drozd, Koichi Shinoda, Shi-wook Lee, Alex Chichung Kot
- 学会等名
  TRECVID workshop
- 国際学会
[学会発表] Skeleton-based Human Action Recognition with Fine-to-Coarse Convolutional Neural Network2018
- 著者名/発表者名
  Thao Minh Le, Nakamasa Inoue, Koichi Shinoda
- 学会等名
  Technical Reports of IEICE PRMU
- 国際学会
[学会発表] The NEC-TT Speaker Verification System for SRE’182018
- 著者名/発表者名
  K. A. Lee, H. Yamamoto, K. Okabe, Q. Wang, L. Guo, T. Koshinaka, J. Zhang, K. Shinoda
- 学会等名
  NIST 2018 Speaker Recognition Evaluation
- 国際学会

2018 年度 実績報告書

深層学習によるマルチモーダル時系列データ認識基盤の構築

研究代表者

篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)

研究成果

[学会発表] 情報理工学の現状と将来2019

著者名/発表者名

学会等名

[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2019

著者名/発表者名

学会等名

[学会発表] A robust algorithm of phase recovery for speech enhancement2019

著者名/発表者名

学会等名

[学会発表] Improving the robustness of multiple input spectrogram inversion2019

著者名/発表者名

学会等名

[学会発表] SEQUENCE-LEVEL KNOWLEDGE DISTILLATION FOR MODEL COMPRESSION OF ATTENTION-BASED SEQUENCE-TO-SEQUENCE SPEECH RECOGNITION2019

著者名/発表者名

学会等名

[学会発表] 深層学習のためのCo-Design2018

著者名/発表者名

学会等名

[学会発表] 単語分散表現を用いた動画からのイベント検出2018

著者名/発表者名

学会等名

[学会発表] Astronomical Image Subtraction for Transient Detection Using CNN2018

著者名/発表者名

学会等名

[学会発表] Alzheimer's Disease Prediction Using Audio Gated Convolutional Neural Network2018

著者名/発表者名

学会等名

[学会発表] Generative Adversarial Network Based i-Vector Transformation for Short Utterance Speaker Verification2018

著者名/発表者名

学会等名

[学会発表] A Fine-to-Coarse Convolutional Neural Network for 3D Human Action Recognition2018

著者名/発表者名

学会等名

[学会発表] Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data2018

著者名/発表者名

学会等名

[学会発表] I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification2018

著者名/発表者名

学会等名

[学会発表] Few-Shot Adaptation for Multimedia Semantic Indexing2018

著者名/発表者名

学会等名

[学会発表] VANT at TRECVID 20182018

著者名/発表者名

学会等名

[学会発表] Skeleton-based Human Action Recognition with Fine-to-Coarse Convolutional Neural Network2018

著者名/発表者名

学会等名

[学会発表] The NEC-TT Speaker Verification System for SRE’182018

著者名/発表者名

学会等名

2018 年度実績報告書

篠田浩一東京工業大学, 情報理工学院, 教授 (10343097)