識別的特徴抽出と確率モデルに基づく多様な環境・発声変動に頑健な音声認識
Project/Area Number |
15K16020
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Multi-year Fund |
Research Field |
Perceptual information processing
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
王 龍標 長岡技術科学大学, 工学(系)研究科(研究院), 准教授 (30510458)
|
Project Period (FY) |
2015-04-01 – 2017-03-31
|
Project Status |
Discontinued (Fiscal Year 2016)
|
Budget Amount *help |
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2017: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2016: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2015: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 音声認識 / 深層学習 / 特徴適応 |
Outline of Annual Research Achievements |
本研究は、多様な発話環境・発話スタイル・発話アクセントの音声に対して、環境・発声変動を正規化しながら識別的特徴抽出と確率モデルを一体化する高精度な音声認識法を研究した。具体的には、平成27年度に、(1)多様な環境・発声様式による英語音声データベースの整備、(2)深層学習(Deep Learning)による環境・発声変動の除去・識別的特徴変換の同時最適化に基づく識別的特徴抽出、(3)多様な環境・発話変動などの音声認識への悪影響を軽減するPLDA(確率的線形判別分析)-HMMによる音声認識、を行った。 平成28年度では、(1)雑音環境におけるマルチチャンネル特徴適応、(2)アクセントが強い非母国語話者の発話に頑健な音声認識、を行った。(1)について、悪環境下での音声認識率(単語正解精度)を従来の60%程度から実用化レベルの80%を超えた。(2)について、非母国語話者の音声認識の精度改善を目的とし、非母国語話者に対応した音響モデル学習の手法と、深層学習による特徴量変換の手法を提案した。非母国語話者の音声認識は低リソースの条件であるため、音響モデルとして部分空間混合ガウスモデル(SGMM)を利用した。さらにSGMMは異なる種類の音声を学習データとして複数用いた場合に、その差を考慮した学習が可能であるため、母国語話者の音声と非母国語話者の音声の両方を利用する学習方法(cross-accent SGMM)を提案した。また、深層学習を特徴量変換器として利用する手法を提案した。これらの手法について非母国語話者の音声認識実験において評価を行い、認識精度を大幅に改善した。
|
Report
(2 results)
Research Products
(12 results)
-
-
-
-
-
-
-
-
-
-
-
[Presentation] ROBUST SPEECH RECOGNITION USING BEAMFORMING WITH ADAPTIVE MICROPHONE GAINS AND MULTICHANNEL NOISE REDUCTION2015
Author(s)
2.Shengkui Zhao, Xiong Xiao, Zhaofeng Zhang, Thi Ngoc Tho Nguyen, Xionghu Zhong, Bo Ren, Longbiao Wang, Douglas L. Jones, Eng Siong Chng, Haizhou Li
Organizer
ASRU
Place of Presentation
Scottsdale, Arizona, USA
Year and Date
2015-12-13
Related Report
Int'l Joint Research
-