2013 Fiscal Year Research-status Report
長時間分析窓を用いて得られる位相特徴による音声認識性能の改善に関する研究
Project/Area Number |
24500201
|
Research Institution | Toyota National College of Technology |
Principal Investigator |
山本 一公 豊田工業高等専門学校, 情報工学科, 准教授 (40324230)
|
Co-Investigator(Kenkyū-buntansha) |
中川 聖一 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)
|
Keywords | 音声認識 / 音響特徴量 / 位相スペクトル / 分析窓 / 長時間分析 / 群遅延 / 音響モデル |
Research Abstract |
音声認識に使われている音響特徴量は、振幅スペクトルに基づくものがほとんどであり、人間の聴覚特性が位相に鈍感であるという聴覚主観評価実験の結果に基づいて、位相スペクトルは特徴量としては無視されてきた。しかし、最近の研究で、位相スペクトルにも音声認識が可能となる情報が含まれていることが分かって来た。そこで、本研究では、従来無視されてきた位相スペクトルを効果的な特徴量として音声認識に用いる方法について検討を行っている。 本年度は、先に提案した長時間窓を用いた群遅延に基づく特徴量(Long-Term Group Delay Cepstrum; LTGDC)を音声認識において効果的に用いるために、最近さかんに研究が行われるようになった深層学習(Deep Learning)を活用した隠れマルコフモデル、DNN-HMMに対してLTGDCを用いる検討を行った。DNN-HMMは、従来のガウス分布を用いて出力確率を計算するHMM(GMM-HMM)とは異なり、深層学習により学習されたニューラルネットワークであるDeep Neural Network(DNN)を用いて、HMM状態の確率を事後確率として求めることにより認識性能を改善するモデルである。DNN-HMMには、確率計算に用いられているのがニューラルネットワークであるため、GMMに比べて次元数の大きい特徴量を用いるのが容易であるという利点がある。本研究では、振幅スペクトルに基づく特徴量であるMFCCとLTGDCを組み合わせ、さらに長い音素環境(当該音素の前後に出現する音素)を考慮するために、複数の分析フレームをまとめてDNNの入力とすることで、性能改善を試みた。その結果、LTGDCは長い分析窓で分析された特徴量であるが、複数の分析フレームを結合することで、更なる認識性能の改善が得られ、位相特徴においても時間変化を用いることが効果的であることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
位相特徴を上手く活用できる音響モデルの検討については、本年度の研究により、DNN-HMMに複数フレームを入力することで、振幅スペクトルとの併用と音素環境の考慮を同時に行うことができ、今後の研究でこれを利用できることが分かった。この点については特に遅れは生じておらず、順調に進捗している。 しかし、位相特徴そのものの分析に関しては研究が遅れており、現在のところは、従来提案したLTGDCを使用し続けている状態である。本年度行った検討の中で、短時間窓によって得られるいくつかの新たな位相特徴の求め方を導入し比較・検討することで、位相の特徴を考察できる可能性は示唆されたものの、まだ不十分である。最終年度はこの点を重点的に研究していく必要がある。
|
Strategy for Future Research Activity |
今後は、位相スペクトルに関する検討を重点的に行っていく予定である。本年度の検討の中で、線形予測分析によって得られる線形予測フィルターの位相特性からスムースな群遅延を求める方法や、和歌山大学・河原教授によって研究・開発が行われている、TANDEM-STRAIGHT音声分析合成系を用いることでスムースな群遅延を得る方法があることが分かった。これらの方法は短時間窓でスムースな群遅延を得ることができる。位相特徴(群遅延)を特徴量として用いる際の最大の問題は、そのスペクトルがスムースでなく、インパルス状の成分が発生してしまうことであり、我々の提案したLTGDCが比較的効果的なのは、長時間窓にすることでスムースな群遅延が得られることが理由の一つである。短時間窓でスムースな群遅延が得られる方法であれば、長時間窓によるデメリットがなく、より効果的な特徴として音声認識に利用できると考えられる。これらの点を、迅速に検討していく。
|
Expenditure Plans for the Next FY Research Funding |
所属機関都合(教員人事交流)により、1年間の期間で所属機関が豊田工業高等専門学校に変わったため、本年度に計画していた物品(音声処理用ワークステーション)の購入を、翌年度初頭まで延期したため。 次年度初頭に、本年度に購入予定であった物品(音声処理用ワークステーション)を購入する。予定額は次年度使用額のほぼ全てである。
|