音声コーパスの拡大および計算機の性能向上により,音声認識の高性能化が図られている.しかし音声や音響信号には話者性や背景雑音など多様性があり,それが認識率低下の原因ともなっている.本研究ではクラスタリング技術を用い,音声・音響信号の多様性による音声認識の性能劣化の問題に取り組んだ. 本研究では日本語大規模音声コーパスを用い,性質の類似した信号をクラス別にまとめ,クラスごとにモデルを構築し音声認識の性能向上を図った.研究ではガウス混合分布(GMM)ベースのモデルのみならず近年注目されているディープニューラルネットワーク(DNN)も用い検討した.
|