識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識

研究課題

研究課題/領域番号	15K16020
研究種目	若手研究(B)
配分区分	基金
研究分野	知覚情報処理
研究機関	長岡技術科学大学
研究代表者	王龍標長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)
研究期間 (年度)	2015-04-01 – 2017-03-31
研究課題ステータス	中途終了 (2016年度)
配分額 *注記	3,900千円 (直接経費: 3,000千円、間接経費: 900千円) 2017年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2016年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2015年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	音声認識 / 深層学習 / 特徴適応
研究実績の概要	本研究は、多様な発話環境・発話スタイル・発話アクセントの音声に対して、環境・発声変動を正規化しながら識別的特徴抽出と確率モデルを一体化する高精度な音声認識法を研究した。具体的には、平成27年度に、（１）多様な環境・発声様式による英語音声データベースの整備、（２）深層学習（Deep Learning）による環境・発声変動の除去・識別的特徴変換の同時最適化に基づく識別的特徴抽出、（３）多様な環境・発話変動などの音声認識への悪影響を軽減するPLDA（確率的線形判別分析）-HMMによる音声認識、を行った。平成28年度では、（１）雑音環境におけるマルチチャンネル特徴適応、（２）アクセントが強い非母国語話者の発話に頑健な音声認識、を行った。（１）について、悪環境下での音声認識率（単語正解精度）を従来の60％程度から実用化レベルの80％を超えた。（２）について、非母国語話者の音声認識の精度改善を目的とし、非母国語話者に対応した音響モデル学習の手法と、深層学習による特徴量変換の手法を提案した。非母国語話者の音声認識は低リソースの条件であるため、音響モデルとして部分空間混合ガウスモデル（SGMM）を利用した。さらにSGMMは異なる種類の音声を学習データとして複数用いた場合に、その差を考慮した学習が可能であるため、母国語話者の音声と非母国語話者の音声の両方を利用する学習方法（cross-accent SGMM）を提案した。また、深層学習を特徴量変換器として利用する手法を提案した。これらの手法について非母国語話者の音声認識実験において評価を行い、認識精度を大幅に改善した。

報告書

(2件)

2016 実績報告書
2015 実施状況報告書

研究成果
(12件)

すべて 2016 2015 その他

すべて国際共同研究 (3件) 雑誌論文 (5件) (うち国際共著 4件、査読あり 5件、オープンアクセス 5件、謝辞記載あり 3件) 学会発表 (4件) (うち国際学会 4件)

[国際共同研究] 南洋理工大学/Institute for Infocomm Research(シンガポール)
- 関連する報告書
  2016 実績報告書
[国際共同研究] エジンバラ大学(英国)
- 関連する報告書
  2016 実績報告書
[国際共同研究] 清華大学(中国)
- 関連する報告書
  2016 実績報告書
[雑誌論文] Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization2016
- 著者名/発表者名
  Yuma Ueda, Longbiao Wang, Atsuhiko Kai, Xiong Xiao, EngSiong Chng, Haizhou Li
- 雑誌名
  
  Journal of Signal Processing Systems
  
  巻: 82 号: 2 ページ: 151-161
- DOI
  10.1007/s11265-015-1007-3
- 関連する報告書
  2015 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] Environment-dependent denoising autoencoder for distant-talking speech recognition2015
- 著者名/発表者名
  Y. Ueda, L. Wang, A. Kai, B. Ren
- 雑誌名
  
  Eurasip Journal on Advances in Signal Processing
  
  巻: 2015:92 号: 1 ページ: 1-11
- DOI
  10.1186/s13634-015-0278-y
- 関連する報告書
  2015 実施状況報告書
- 査読あり / オープンアクセス / 謝辞記載あり
[雑誌論文] Distant-talking accent recognition by combining GMM and DNN2015
- 著者名/発表者名
  K. Phapatanaburi, L. Wang, R. Sakagami, Z. Zhang, X. Li, M. Iwahashi
- 雑誌名
  
  Multimedia Tools and Applications
  
  巻: 74 号: 9 ページ: 1-16
- DOI
  10.1007/s11042-015-2935-4
- 関連する報告書
  2015 実施状況報告書
- 査読あり / オープンアクセス / 国際共著 / 謝辞記載あり
[雑誌論文] Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition2015
- 著者名/発表者名
  B. Ren, L. Wang, L. Lu, Y. Ueda, A. Kai
- 雑誌名
  
  Multimedia Tools and Applications
  
  巻: 74 号: 9 ページ: 1-16
- DOI
  10.1007/s11042-015-2849-1
- 関連する報告書
  2015 実施状況報告書
- 査読あり / オープンアクセス / 国際共著 / 謝辞記載あり
[雑誌論文] Deep neural network-based bottleneck feature and denoising autoencoder-based dereverberation for distant-talking speaker identification2015
- 著者名/発表者名
  Z. Zhang, L. Wang, A. Kai, K. Odani, W. Li, M. Iwahashi
- 雑誌名
  
  Eurasip Journal on Audio, Music and Speech Processing
  
  巻: 2015:12 号: 1 ページ: 1-13
- DOI
  10.1186/s13636-015-0056-7
- 関連する報告書
  2015 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] DNN-based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification2016
- 著者名/発表者名
  Z. OO, Y. Kawakami, L. Wang, S. Nakagawa, X. Xiao, M. Iwahashi
- 学会等名
  Interspeech
- 発表場所
  San Francisco, USA
- 年月日
  2016-09-08
- 関連する報告書
  2016 実績報告書
- 国際学会
[学会発表] Speech selection and environmental adaptation for asynchronous speech recognition2015
- 著者名/発表者名
  Bo Ren, L. Wang, Y. Ueda, A. Kai, Z. Zhang
- 学会等名
  APSIPA
- 発表場所
  Hong Kong
- 年月日
  2015-12-16
- 関連する報告書
  2015 実施状況報告書
- 国際学会
[学会発表] ROBUST SPEECH RECOGNITION USING BEAMFORMING WITH ADAPTIVE MICROPHONE GAINS AND MULTICHANNEL NOISE REDUCTION2015
- 著者名/発表者名
  2.Shengkui Zhao, Xiong Xiao, Zhaofeng Zhang, Thi Ngoc Tho Nguyen, Xionghu Zhong, Bo Ren, Longbiao Wang, Douglas L. Jones, Eng Siong Chng, Haizhou Li
- 学会等名
  ASRU
- 発表場所
  Scottsdale, Arizona, USA
- 年月日
  2015-12-13
- 関連する報告書
  2015 実施状況報告書
- 国際学会
[学会発表] Relative phase information for detecting human speech and spoofed speech2015
- 著者名/発表者名
  L. Wang Y. Yoshida, Y. Kawakami, S. Nakagawa
- 学会等名
  Interspeech
- 発表場所
  Dresden, Germany
- 年月日
  2015-09-06
- 関連する報告書
  2015 実施状況報告書
- 国際学会

識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識

研究代表者

王 龍標 長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)

3,900千円 (直接経費: 3,000千円、間接経費: 900千円)

報告書

研究成果

[国際共同研究] 南洋理工大学/Institute for Infocomm Research(シンガポール)

関連する報告書

[国際共同研究] エジンバラ大学(英国)

関連する報告書

[国際共同研究] 清華大学(中国)

関連する報告書

[雑誌論文] Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization2016

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Environment-dependent denoising autoencoder for distant-talking speech recognition2015

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Distant-talking accent recognition by combining GMM and DNN2015

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition2015

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Deep neural network-based bottleneck feature and denoising autoencoder-based dereverberation for distant-talking speaker identification2015

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] DNN-based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Speech selection and environmental adaptation for asynchronous speech recognition2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] ROBUST SPEECH RECOGNITION USING BEAMFORMING WITH ADAPTIVE MICROPHONE GAINS AND MULTICHANNEL NOISE REDUCTION2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Relative phase information for detecting human speech and spoofed speech2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

王龍標長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)