研究概要 |
本年度は,1)分析ツールの作成・利用による、GPHMM(Generalized PartlyHiddenMarkov Models)の問題点の解明、2)GPHMMの最適構造決定,3)GPHMMによる連続音声認識、の3点について検討を行った。 昨年度予備検討において、GPHMMは期待通りの認識性能を与えていなかった。このことの原因がどこにあるのかを調査するため、尤度変化を視覚的に確認するツールを作成した。このツールを用いた分析の結果、GPHMMは入り渡りの表現に優れるものの、出渡りの表現能力は予想以上に劣ることが判明した。このため、従来の1音素1モデルの原則をくずし、半音節モデル(出渡りの異なる音は,異なるモデルで扱う方式)を導入した。 この変更の他、いくつかの実装上の問題点も明らかになり、これらの修正によって、HMMを上回る認識率を与えることに成功した。また、GPHMMのようなパラメータ軌跡を正確に表現するモデルにおいては、話者性の差異が大きな問題となる可能性があるため、話者性の正規化についても検討を行った。 GPHMMの構造決定に関しては、フレーム間相関の時間ラグの最適な大きさにっいて検討を行った。ここで行った実験の範囲では、ほぼ30msから60msの間で良好な結果を与えることが判明した。現状では音素によらず一定の構造を採用しているが、音素毎に異なる構造を採用するほうが有効かもしれない。今後検討を進める予定である。 GPHMMによる連続単語音声認識については、ワンパストライグラムのデコーダを、GPHMMを扱えるよう拡張することで行った。新聞記事の読み上げコーパスに適用した結果、HMM、PHMM、平滑化PHMMなどに比べ、高い性能を与えることを確認した。 来年度は、より大規模な認識実験を行うとともに、実際に生じている現象を詳細に調査することによって、GPHMMの有効性が何に基づくものかを検討する予定である。
|