研究概要 |
近年の音声認識技術の発達により,静かな環境で丁寧に読み上げられた音声に対しては,90%以上の高い単語認識率での音声認識が可能になった.しかし,自由に発話された音声(話し言葉音声)に対しては,現状では60〜70%程度と低い単語正解率しか得られず,実用には遠い段階である.話し言葉音声で認識精度が低い要因として,発話速度の変動が挙げられる.話し言葉音声は、読み上げ音声と比較して、発話速度変動が大きく,話速変化に頑健な音響モデルの検討が必要となる。本研究では,ベイジアンネットワークとHMMを融合させ,局所的発話変動を扱える音響モデルの開発を目指している. まず,HMMの状態が持つ出力確率分布と,状態間の遷移確率が認識精度にどの程度影響するかを調べるために,発話速度別の音響モデルを作成し,各モデル間で遷移確率,出力確率分布を入れ換えて認識実験を行った.この結果,1)発話速度の速い音声を,「通常速度の音声で学習した出力確率分布+発話速度の速い音声で学習した遷移確率」を組合せた音響モデルにより認識することで,単純に発話速度の速い音声で学習した音響モデルで認識する場合よりも高い認識精度が得られる,2)発話速度の遅い音声を,「通常速度の音声で学習した出力確率分布+発話速度の遅い音声で学習した遷移確率」を組合せた音響モデルにより認識することで,単純に発話速度の遅い音声で学習した音響モデルで認識する場合よりも高い認識精度が得られるということが分かった.これにより,発話速度に応じて適応的に使用する確率分布を変えることで認識精度の改善が図れることが分かった.現在,HMMとベイジアンネットワークを融合させるフレームワークの構築を進めている.
|