2014 Fiscal Year Annual Research Report
長時間分析窓を用いて得られる位相特徴による音声認識性能の改善に関する研究
Project/Area Number |
24500201
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
|
Co-Investigator(Kenkyū-buntansha) |
中川 聖一 豊橋技術科学大学, その他部局等, 教授 (20115893) [Withdrawn]
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 音声認識 / 音響特徴量 / 位相スペクトル / 長時間分析 / 群遅延 / 音響モデル / 深層学習 / 雑音環境 |
Outline of Annual Research Achievements |
音声認識に使われている音響特徴量は、振幅スペクトルに基づくものがほとんどであり、人間の聴覚特性が位相変化に対して比較的鈍感であるという聴覚主観評価実験の結果に基づいて、位相スペクトルは特徴量としては無視されてきた。しかし、最近の研究で、位相スペクトルにも音声認識が可能となる情報が含まれていることが分かってきた。そこで、本研究では、従来無視されてきた位相スペクトルを効果的な特徴量として音声認識に用いる方法について検討を行った。 本年度は、昨年度までに行った研究から継続して、実環境大語彙連続音声認識において、位相特徴を用いる方法について検討を行った。音響モデルとしては昨年度検討を行ったDeep Neural Network (DNN)を用いたDNN-HMMを用いた。しかしながら、昨年度までと同じような形で特徴量を統合しても、認識精度の改善はほとんど得られず、雑音環境下においては、むしろ位相特徴を用いることで認識精度が低下してしまう現象が見られた。これは、雑音環境下で正確に位相情報(群遅延)を求めることが難しいためであると考えられる。 そこで、実環境下で頑健な認識が行えるように、方針を一部改めることとした。まず、DNN-HMMを用いた音響モデルによって、雑音環境下で頑健な音声認識を行うための特徴量入力手段を検討し、その後それに位相情報(時間情報)を追加するという方針である。DNN-HMMへの特徴量入力手段としては、スペクトルサブトラクションにより前処理を施して雑音を低減した音声特徴量と共に雑音情報を入力することで、DNN内部での雑音に対する頑健性を向上させ、認識精度を向上させることができた。位相は音声波形のエネルギーに関する時間情報を表すことが分かり、位相情報の追加方法として、時間領域ガンマトーンフィルタによる特徴抽出とDNNへの入力を試みたが、残念ながらこちらはまだ道半ばという状況である。
|
Research Products
(3 results)