2016 Fiscal Year Annual Research Report

識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識

Research Project

Project/Area Number	15K16020
Research Institution	Nagaoka University of Technology
Principal Investigator	王龍標長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)
Project Period (FY)	2015-04-01 – 2017-03-31
Keywords	音声認識 / 深層学習 / 特徴適応
Outline of Annual Research Achievements	本研究は、多様な発話環境・発話スタイル・発話アクセントの音声に対して、環境・発声変動を正規化しながら識別的特徴抽出と確率モデルを一体化する高精度な音声認識法を研究した。具体的には、平成27年度に、（１）多様な環境・発声様式による英語音声データベースの整備、（２）深層学習（Deep Learning）による環境・発声変動の除去・識別的特徴変換の同時最適化に基づく識別的特徴抽出、（３）多様な環境・発話変動などの音声認識への悪影響を軽減するPLDA（確率的線形判別分析）-HMMによる音声認識、を行った。平成28年度では、（１）雑音環境におけるマルチチャンネル特徴適応、（２）アクセントが強い非母国語話者の発話に頑健な音声認識、を行った。（１）について、悪環境下での音声認識率（単語正解精度）を従来の60％程度から実用化レベルの80％を超えた。（２）について、非母国語話者の音声認識の精度改善を目的とし、非母国語話者に対応した音響モデル学習の手法と、深層学習による特徴量変換の手法を提案した。非母国語話者の音声認識は低リソースの条件であるため、音響モデルとして部分空間混合ガウスモデル（SGMM）を利用した。さらにSGMMは異なる種類の音声を学習データとして複数用いた場合に、その差を考慮した学習が可能であるため、母国語話者の音声と非母国語話者の音声の両方を利用する学習方法（cross-accent SGMM）を提案した。また、深層学習を特徴量変換器として利用する手法を提案した。これらの手法について非母国語話者の音声認識実験において評価を行い、認識精度を大幅に改善した。

Research Products
(4 results)

All 2016 Other

All Int'l Joint Research (3 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Int'l Joint Research] 南洋理工大学/Institute for Infocomm Research(シンガポール)
- Country Name
  SINGAPORE
- Counterpart Institution
  南洋理工大学/Institute for Infocomm Research
[Int'l Joint Research] エジンバラ大学(英国)
- Country Name
  UNITED KINGDOM
- Counterpart Institution
  エジンバラ大学
[Int'l Joint Research] 清華大学(中国)
- Country Name
  CHINA
- Counterpart Institution
  清華大学
[Presentation] DNN-based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification2016
- Author(s)
  Z. OO, Y. Kawakami, L. Wang, S. Nakagawa, X. Xiao, M. Iwahashi
- Organizer
  Interspeech
- Place of Presentation
  San Francisco, USA
- Year and Date
  2016-09-08 – 2016-09-12
- Int'l Joint Research

2016 Fiscal Year Annual Research Report

識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識

Principal Investigator

王 龍標 長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)

Research Products

[Int'l Joint Research] 南洋理工大学/Institute for Infocomm Research(シンガポール)

Country Name

Counterpart Institution

[Int'l Joint Research] エジンバラ大学(英国)

Country Name

Counterpart Institution

[Int'l Joint Research] 清華大学(中国)

Country Name

Counterpart Institution

[Presentation] DNN-based Amplitude and Phase Feature Enhancement for Noise Robust Speaker Identification2016

Author(s)

Organizer

Place of Presentation

Year and Date

王龍標長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)