研究概要 |
(1)音声合成及び音声認識に適した隠れマルコフモデルの単位や構造について検討を行った.その結果,概して音声認識率の良いモデルが,合成音声の品質もよいことがわかった.但し,継続長は,モデルがもつ継続長ではなく,認識時に得られた継続長を用いて音声合成を行う必要があることもわかった. (2)受聴試験に基づく主観評価実験により,提案符号化システムの音声品質評価を行なった.その結果,通常用いられるベクトル量子化法に比べて,約半分のビットレート(約200bit/s)で音声スペクトル情報を符号化したにも関わらず,大きく音声品質を改善できることがわかった(MOS値で約0.3の改善). (3)異なる話者に対応するため,音声認識における話者適応の手法を導入することを検討した.その結果,男性話者間の適応は,良好に行うことができるが,男性話者から女性話者、あるいはその逆の適応は,若干精度が悪くなることもわかった. (4)上記問題に対応するため,代表話者何人かの隠れマルコフモデルを用意し、それらを補間する方法について検討を行い,男性話者と女性話者の間の補間も良好に行われることを確認した.
|