ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案

研究課題

研究課題/領域番号	15J02418
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
研究分野	知覚情報処理
研究機関	同志社大学
研究代表者	落合翼同志社大学, 理工学研究科, 特別研究員(DC1)
研究期間 (年度)	2015-04-24 – 2018-03-31
研究課題ステータス	完了 (2017年度)
配分額 *注記	2,800千円 (直接経費: 2,800千円) 2017年度: 900千円 (直接経費: 900千円) 2016年度: 900千円 (直接経費: 900千円) 2015年度: 1,000千円 (直接経費: 1,000千円)
キーワード	多チャンネルend-to-end音声認識 / end-to-endモデルの話者・環境適応 / 環境適応タスクにおける評価実験 / モデル適応のオンライン化 / ネットワーク構造の自動最適化 / 線形変換ネットワークの導入 / 行列ランクに基づいた分析 / ボトルネック構造の導入
研究実績の概要	本研究課題は、ディープニューラルネットワーク(DNN)を用いた、対象問題を限定しない一般的な適応学習フレームワークの構築を目指すものである。本年度は、本研究課題のコンセプトである「DNNの内部に対する機能の集約・局在化」のアイデアを応用し、DNN自身に環境に対する適応能力を学習によって自動的に獲得させる方法論の提案を行った。提案手法では、本来ブラックボックスとして扱われるDNNの内部構造に対し、対象問題に対する事前知識（例えば、雑音下音声認識では雑音抑圧の機能が必要）を数式としてネットワークに組み込むことで、DNNの学習の方向性を誘導し、対象問題にとって望ましい機能をDNNの内部に獲得させることに成功した。本年度の研究成果として、大きく分けて以下の2つが挙げられる。（1）雑音抑圧機能を自動獲得するend-to-end音声認識モデル構造の提案。音声認識に関わる一連の手続きを、単一のDNNに基づいて構築するend-to-end音声認識モデルに対し、多チャンネル信号処理技術を数式としてネットワークの内部に組み込むことで、雑音抑圧機能を学習によって自動的に獲得するネットワーク構造の提案を行った。評価実験の結果、提案したend-to-end音声認識モデルは、雑音環境に対する高い適応能力を獲得し、雑音下音声認識において従来手法よりも高い認識性能を発揮することが確認された。（2）提案したend-to-end音声認識モデルに対するモデル適応技術の有効性の検証。本年度に提案したend-to-end音声認識モデルに対し、昨年度までに研究していたモデル適応技術を組み合わせることで、更なる認識性能の向上を得ることが出来ないか、評価実験を通してその有効性の検証を行った。評価実験の結果、提案手法を組み合わせることで、end-to-end音声認識モデルは更なる認識性能の向上を獲得することが確認された。
現在までの達成度 (段落)	29年度が最終年度であるため、記入しない。
今後の研究の推進方策	29年度が最終年度であるため、記入しない。

報告書

(3件)

研究成果
(15件)

すべて 2018 2017 2016 2015 その他

すべて国際共同研究 (1件) 雑誌論文 (2件) (うち国際共著 1件、査読あり 2件、謝辞記載あり 1件) 学会発表 (12件) (うち国際学会 7件、招待講演 1件)

[国際共同研究] MERL(米国)
- 関連する報告書
  2016 実績報告書
[雑誌論文] Unified Architecture for Multichannel End-to-end Speech Recognition with Neural Beamforming2017
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Takaaki Hori, John R. Hershey, Xiong Xiao
- 雑誌名
  
  IEEE Journal of Selected Topics in Signal Processing (JSTSP)
  
  巻: volume 11, issue 8 ページ: 1274-1288
- 関連する報告書
  2017 実績報告書
- 査読あり / 国際共著
[雑誌論文] Speaker Adaptive Training Localizing Speaker Modules in DNN for Hybrid DNN-HMM Speech Recognizers2016
- 著者名/発表者名
  Tsubasa Ochiai, Shigeki Matsuda, Hideyuki Watanabe, Xugang Lu, Chiori Hori, Hisashi Kawai, Shigeru Katagiri
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E99.D 号: 10 ページ: 2431-2443
- DOI
  10.1587/transinf.2016SLP0010
- NAID
  130005598241
- ISSN
  0916-8532, 1745-1361
- 関連する報告書
  2016 実績報告書
- 査読あり / 謝辞記載あり
[学会発表] Speaker Adaptation for Multichannel End-to-end Speech Recognition2018
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Shigeru Katagiri, Takaaki Hori, John R. Hershey
- 学会等名
  International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] Automatic node selection for deep neural networks using group lasso regularization2017
- 著者名/発表者名
  Tsubasa Ochiai
- 学会等名
  International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 発表場所
  New Orleans (USA)
- 年月日
  2017-03-08
- 関連する報告書
  2016 実績報告書
- 国際学会
[学会発表] Cumulative moving averaged bottleneck speaker vectors for online speaker adaptation of CNN-based acoustic models2017
- 著者名/発表者名
  Tsubasa Ochiai
- 学会等名
  International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 発表場所
  New Orleans (USA)
- 年月日
  2017-03-06
- 関連する報告書
  2016 実績報告書
- 国際学会
[学会発表] Multichannel end-to-end speech recognition2017
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Takaaki Hori, John R. Hershey
- 学会等名
  International Conference on Machine Learning (ICML)
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR2017
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Shigeru Katagiri
- 学会等名
  IEEE International Workshop on Machine Learning for Signal Processing (MLSP)
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] Deep Learning 基礎と応用（音声認識分野を中心に）2016
- 著者名/発表者名
  落合翼
- 学会等名
  音響学会
- 発表場所
  京都府
- 年月日
  2016-03-28
- 関連する報告書
  2015 実績報告書
- 招待講演
[学会発表] Bottleneck linear transformation network adaptation for speaker adaptive training-based hybrid DNN-HMM speech recognizer2016
- 著者名/発表者名
  落合翼
- 学会等名
  International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 発表場所
  Shanghai
- 年月日
  2016-03-23
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] 線形変換ネットワークを用いて話者正規化学習されたDNNのためのボトルネック話者適応法の提案2016
- 著者名/発表者名
  落合翼
- 学会等名
  音響学会
- 発表場所
  神奈川県
- 年月日
  2016-03-11
- 関連する報告書
  2015 実績報告書
[学会発表] 話者正規化学習されたDNNにおける行列のランクに基づく動作分析2015
- 著者名/発表者名
  落合翼
- 学会等名
  音響学会
- 発表場所
  福島県
- 年月日
  2015-09-16
- 関連する報告書
  2015 実績報告書
[学会発表] 国際会議ICASSP2015参加報告2015
- 著者名/発表者名
  落合翼，他複数
- 学会等名
  情報処理学会
- 発表場所
  長野県
- 年月日
  2015-07-16
- 関連する報告書
  2015 実績報告書
[学会発表] 線形変換ネットワークを用いて話者正規化学習されたDNNにおけるネットワークサイズが与える影響の実験的評価2015
- 著者名/発表者名
  落合翼
- 学会等名
  電子情報通信学会
- 発表場所
  長野県
- 年月日
  2015-07-16
- 関連する報告書
  2015 実績報告書
[学会発表] Speaker adaptive training using deep neural networks embedding linear transformation networks2015
- 著者名/発表者名
  落合翼
- 学会等名
  International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 発表場所
  Brisbane
- 年月日
  2015-04-21
- 関連する報告書
  2015 実績報告書
- 国際学会

ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案

研究代表者

落合 翼 同志社大学, 理工学研究科, 特別研究員(DC1)

2,800千円 (直接経費: 2,800千円)

報告書

研究成果

[国際共同研究] MERL(米国)

関連する報告書

[雑誌論文] Unified Architecture for Multichannel End-to-end Speech Recognition with Neural Beamforming2017

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Speaker Adaptive Training Localizing Speaker Modules in DNN for Hybrid DNN-HMM Speech Recognizers2016

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] Speaker Adaptation for Multichannel End-to-end Speech Recognition2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Automatic node selection for deep neural networks using group lasso regularization2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Cumulative moving averaged bottleneck speaker vectors for online speaker adaptation of CNN-based acoustic models2017

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Multichannel end-to-end speech recognition2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Deep Learning 基礎と応用（音声認識分野を中心に）2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Bottleneck linear transformation network adaptation for speaker adaptive training-based hybrid DNN-HMM speech recognizer2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 線形変換ネットワークを用いて話者正規化学習されたDNNのためのボトルネック話者適応法の提案2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 話者正規化学習されたDNNにおける行列のランクに基づく動作分析2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 国際会議ICASSP2015参加報告2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 線形変換ネットワークを用いて話者正規化学習されたDNNにおけるネットワークサイズが与える影響の実験的評価2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Speaker adaptive training using deep neural networks embedding linear transformation networks2015

落合翼同志社大学, 理工学研究科, 特別研究員(DC1)