本年度は「低認識精度発声」に関する研究の前段階として、分散型音声認識における音声認識精度の変化とその問題点に関して調査研究を進めた。また、それと並行し低認識精度発声には話者適応手法が有効であると考えられるので話者適応に関する研究も行った。 本年度の知見では、分散型音声認識においては伝送のためにベクトル量子化を行い特徴パラメータを圧縮する。音響モデル学習時にはこの量子化された特徴パラメータが悪影響を及ぼし、混合正規分布の分散値の学習が困難になることがわかり、音声認識精度を低下させる。このため、音響モデル学習の際には量子化されていない特徴パラメータを用いることにより、量子化による音声認識精度低下を抑制できることがわかった。 また、低認識精度発声の原因のひとつになると想像される入力デバイスの周波数特性の差異による音声認識精度低下に関して研究を行った。特に分散型音声認識は先の問題と同様に量子化が認識精度低下の要因となることがわかった。周波数特性に差異が生じた場合、規定されているベクトル量子化コードブックと特徴パラメータ間に歪みが生じ、適切に量子化できないことがわかった。そこで、量子化コードブックの平均に1発声の平均特徴パラメータを近づけるように正規化を行うことにより、周波数特性の差異による認識精度低下が抑制することが可能であることがわかった。さらに、この手法を実時間で実行できるように改良を加えた。 来年度は本年度の研究成果を基に低認識精度発声に関し、原因追求および認識精度改善を行う予定である。
|