2017 年度実績報告書

ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案

研究課題

研究課題/領域番号	15J02418
研究機関	同志社大学
研究代表者	落合翼同志社大学, 理工学研究科, 特別研究員(DC1)
研究期間 (年度)	2015-04-24 – 2018-03-31
キーワード	多チャンネルend-to-end音声認識 / end-to-endモデルの話者・環境適応
研究実績の概要	本研究課題は、ディープニューラルネットワーク(DNN)を用いた、対象問題を限定しない一般的な適応学習フレームワークの構築を目指すものである。本年度は、本研究課題のコンセプトである「DNNの内部に対する機能の集約・局在化」のアイデアを応用し、DNN自身に環境に対する適応能力を学習によって自動的に獲得させる方法論の提案を行った。提案手法では、本来ブラックボックスとして扱われるDNNの内部構造に対し、対象問題に対する事前知識（例えば、雑音下音声認識では雑音抑圧の機能が必要）を数式としてネットワークに組み込むことで、DNNの学習の方向性を誘導し、対象問題にとって望ましい機能をDNNの内部に獲得させることに成功した。本年度の研究成果として、大きく分けて以下の2つが挙げられる。（1）雑音抑圧機能を自動獲得するend-to-end音声認識モデル構造の提案。音声認識に関わる一連の手続きを、単一のDNNに基づいて構築するend-to-end音声認識モデルに対し、多チャンネル信号処理技術を数式としてネットワークの内部に組み込むことで、雑音抑圧機能を学習によって自動的に獲得するネットワーク構造の提案を行った。評価実験の結果、提案したend-to-end音声認識モデルは、雑音環境に対する高い適応能力を獲得し、雑音下音声認識において従来手法よりも高い認識性能を発揮することが確認された。（2）提案したend-to-end音声認識モデルに対するモデル適応技術の有効性の検証。本年度に提案したend-to-end音声認識モデルに対し、昨年度までに研究していたモデル適応技術を組み合わせることで、更なる認識性能の向上を得ることが出来ないか、評価実験を通してその有効性の検証を行った。評価実験の結果、提案手法を組み合わせることで、end-to-end音声認識モデルは更なる認識性能の向上を獲得することが確認された。
現在までの達成度 (段落)	29年度が最終年度であるため、記入しない。
今後の研究の推進方策	29年度が最終年度であるため、記入しない。

研究成果
(4件)

すべて 2018 2017

すべて雑誌論文 (1件) (うち国際共著 1件、査読あり 1件) 学会発表 (3件) (うち国際学会 3件)

[雑誌論文] Unified Architecture for Multichannel End-to-end Speech Recognition with Neural Beamforming2017
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Takaaki Hori, John R. Hershey, Xiong Xiao
- 雑誌名
  
  IEEE Journal of Selected Topics in Signal Processing (JSTSP)
  
  巻: volume 11, issue 8 ページ: 1274-1288
- 査読あり / 国際共著
[学会発表] Speaker Adaptation for Multichannel End-to-end Speech Recognition2018
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Shigeru Katagiri, Takaaki Hori, John R. Hershey
- 学会等名
  International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- 国際学会
[学会発表] Multichannel end-to-end speech recognition2017
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Takaaki Hori, John R. Hershey
- 学会等名
  International Conference on Machine Learning (ICML)
- 国際学会
[学会発表] Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR2017
- 著者名/発表者名
  Tsubasa Ochiai, Shinji Watanabe, Shigeru Katagiri
- 学会等名
  IEEE International Workshop on Machine Learning for Signal Processing (MLSP)
- 国際学会

2017 年度 実績報告書

ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案

研究代表者

落合 翼 同志社大学, 理工学研究科, 特別研究員(DC1)

研究成果

[雑誌論文] Unified Architecture for Multichannel End-to-end Speech Recognition with Neural Beamforming2017

著者名/発表者名

雑誌名

[学会発表] Speaker Adaptation for Multichannel End-to-end Speech Recognition2018

著者名/発表者名

学会等名

[学会発表] Multichannel end-to-end speech recognition2017

著者名/発表者名

学会等名

[学会発表] Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR2017

著者名/発表者名

学会等名

2017 年度実績報告書

落合翼同志社大学, 理工学研究科, 特別研究員(DC1)