本研究は、多様な発話環境・発話スタイル・発話アクセントの音声に対して、環境・発声変動を正規化しながら識別的特徴抽出と確率モデルを一体化する高精度な音声認識法を研究した。具体的には、平成27年度に、(1)多様な環境・発声様式による英語音声データベースの整備、(2)深層学習(Deep Learning)による環境・発声変動の除去・識別的特徴変換の同時最適化に基づく識別的特徴抽出、(3)多様な環境・発話変動などの音声認識への悪影響を軽減するPLDA(確率的線形判別分析)-HMMによる音声認識、を行った。 平成28年度では、(1)雑音環境におけるマルチチャンネル特徴適応、(2)アクセントが強い非母国語話者の発話に頑健な音声認識、を行った。(1)について、悪環境下での音声認識率(単語正解精度)を従来の60%程度から実用化レベルの80%を超えた。(2)について、非母国語話者の音声認識の精度改善を目的とし、非母国語話者に対応した音響モデル学習の手法と、深層学習による特徴量変換の手法を提案した。非母国語話者の音声認識は低リソースの条件であるため、音響モデルとして部分空間混合ガウスモデル(SGMM)を利用した。さらにSGMMは異なる種類の音声を学習データとして複数用いた場合に、その差を考慮した学習が可能であるため、母国語話者の音声と非母国語話者の音声の両方を利用する学習方法(cross-accent SGMM)を提案した。また、深層学習を特徴量変換器として利用する手法を提案した。これらの手法について非母国語話者の音声認識実験において評価を行い、認識精度を大幅に改善した。
|