2017 Fiscal Year Annual Research Report

ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案

Research Project

Project/Area Number	15J02418
Research Institution	Doshisha University
Principal Investigator	落合翼同志社大学, 理工学研究科, 特別研究員(DC1)
Project Period (FY)	2015-04-24 – 2018-03-31
Keywords	多チャンネルend-to-end音声認識 / end-to-endモデルの話者・環境適応
Outline of Annual Research Achievements	本研究課題は、ディープニューラルネットワーク(DNN)を用いた、対象問題を限定しない一般的な適応学習フレームワークの構築を目指すものである。本年度は、本研究課題のコンセプトである「DNNの内部に対する機能の集約・局在化」のアイデアを応用し、DNN自身に環境に対する適応能力を学習によって自動的に獲得させる方法論の提案を行った。提案手法では、本来ブラックボックスとして扱われるDNNの内部構造に対し、対象問題に対する事前知識（例えば、雑音下音声認識では雑音抑圧の機能が必要）を数式としてネットワークに組み込むことで、DNNの学習の方向性を誘導し、対象問題にとって望ましい機能をDNNの内部に獲得させることに成功した。本年度の研究成果として、大きく分けて以下の2つが挙げられる。（1）雑音抑圧機能を自動獲得するend-to-end音声認識モデル構造の提案。音声認識に関わる一連の手続きを、単一のDNNに基づいて構築するend-to-end音声認識モデルに対し、多チャンネル信号処理技術を数式としてネットワークの内部に組み込むことで、雑音抑圧機能を学習によって自動的に獲得するネットワーク構造の提案を行った。評価実験の結果、提案したend-to-end音声認識モデルは、雑音環境に対する高い適応能力を獲得し、雑音下音声認識において従来手法よりも高い認識性能を発揮することが確認された。（2）提案したend-to-end音声認識モデルに対するモデル適応技術の有効性の検証。本年度に提案したend-to-end音声認識モデルに対し、昨年度までに研究していたモデル適応技術を組み合わせることで、更なる認識性能の向上を得ることが出来ないか、評価実験を通してその有効性の検証を行った。評価実験の結果、提案手法を組み合わせることで、end-to-end音声認識モデルは更なる認識性能の向上を獲得することが確認された。
Research Progress Status	29年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	29年度が最終年度であるため、記入しない。

Research Products
(4 results)

All 2018 2017

All Journal Article (1 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 1 results) Presentation (3 results) (of which Int'l Joint Research: 3 results)

[Journal Article] Unified Architecture for Multichannel End-to-end Speech Recognition with Neural Beamforming2017
- Author(s)
  Tsubasa Ochiai, Shinji Watanabe, Takaaki Hori, John R. Hershey, Xiong Xiao
- Journal Title
  
  IEEE Journal of Selected Topics in Signal Processing (JSTSP)
  
  Volume: volume 11, issue 8 Pages: 1274-1288
- Peer Reviewed / Int'l Joint Research
[Presentation] Speaker Adaptation for Multichannel End-to-end Speech Recognition2018
- Author(s)
  Tsubasa Ochiai, Shinji Watanabe, Shigeru Katagiri, Takaaki Hori, John R. Hershey
- Organizer
  International Conference on Acoustics, Speech and Signal Processing (ICASSP)
- Int'l Joint Research
[Presentation] Multichannel end-to-end speech recognition2017
- Author(s)
  Tsubasa Ochiai, Shinji Watanabe, Takaaki Hori, John R. Hershey
- Organizer
  International Conference on Machine Learning (ICML)
- Int'l Joint Research
[Presentation] Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR2017
- Author(s)
  Tsubasa Ochiai, Shinji Watanabe, Shigeru Katagiri
- Organizer
  IEEE International Workshop on Machine Learning for Signal Processing (MLSP)
- Int'l Joint Research

2017 Fiscal Year Annual Research Report

ディープニューラルネットワークを用いる高効率適応学習の汎用的フレームワークの提案

Principal Investigator

落合 翼 同志社大学, 理工学研究科, 特別研究員(DC1)

Research Products

[Journal Article] Unified Architecture for Multichannel End-to-end Speech Recognition with Neural Beamforming2017

Author(s)

Journal Title

[Presentation] Speaker Adaptation for Multichannel End-to-end Speech Recognition2018

Author(s)

Organizer

[Presentation] Multichannel end-to-end speech recognition2017

Author(s)

Organizer

[Presentation] Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR2017

Author(s)

Organizer

落合翼同志社大学, 理工学研究科, 特別研究員(DC1)