音声コーパスの拡大および計算機の性能向上による演算スピートの増加により,高精度な音声認識が可能となりつつある.しかし音声や音響信号には多様性があり,常に良好に認識できるわけではない.話者による性能劣化,雑音や残響などの影響など,多くの問題点が残されている.本研究ではクラスタリング技術を用い,音声・音響信号の多様性による音声認識の性能劣化の問題に取り組んだ.手法としては信号の特徴を利用して自動分類により性質の類似した信号をクラス別にまとめ,クラスごとモデルを構築し認識に利用する.特に本研究では近年整備が進んでいる大規模音声コーパスを用い,従来十分検討されていなかった数百から数千の大規模なクラスタリングを試み,その効果の検討を行った. 当初の予定では従来から用いられているガウス混合分布(GMM)ベースの隠れマルコフモデル(HMM)であるGMM-HMMを音響モデルとして用いる予定で,当初は予定通りGMM-HMMを用いて検討を行った.一方,近年深層学習(Deep Learning)にもとづくニューラルネットワーク,すなわちディープニューラルネットワーク(DNN)が音響モデルとして高い性能が得られることが分かってきた.このため期間の途中よりDNN-HMMを音響モデルとして用い,そのモデルのクラスタリンスについても検討した. 検討の結果,従来のGMM-HMMにおいてもDNN-HMMでも,話者クラスタリングに基づく音響モデルは音声認識に有効であることが分かった.また話者クラスDNN-HMMについて,複数の話者クラスモデルに重みをつけて使用することの有効性を示した.また最終年度は雑音環境において,雑音の種類別にDNNでモデル化することの有効性を示し,音声検出に利用できることを示した.
|