• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2001 Fiscal Year Annual Research Report

状態・出力に相互依存性を有する確率モデルに基づく高精度な音声・ジェスチャ認識

Research Project

Project/Area Number 12680399
Research InstitutionWaseda University

Principal Investigator

小林 哲則  早稲田大学, 理工学部, 教授 (30162001)

Keywords音声認識 / 音響モデル / ジェスチャ認識 / 時系列パターン認識
Research Abstract

本年度は,1)分析ツールの作成・利用による、GPHMM(Generalized PartlyHiddenMarkov Models)の問題点の解明、2)GPHMMの最適構造決定,3)GPHMMによる連続音声認識、の3点について検討を行った。
昨年度予備検討において、GPHMMは期待通りの認識性能を与えていなかった。このことの原因がどこにあるのかを調査するため、尤度変化を視覚的に確認するツールを作成した。このツールを用いた分析の結果、GPHMMは入り渡りの表現に優れるものの、出渡りの表現能力は予想以上に劣ることが判明した。このため、従来の1音素1モデルの原則をくずし、半音節モデル(出渡りの異なる音は,異なるモデルで扱う方式)を導入した。
この変更の他、いくつかの実装上の問題点も明らかになり、これらの修正によって、HMMを上回る認識率を与えることに成功した。また、GPHMMのようなパラメータ軌跡を正確に表現するモデルにおいては、話者性の差異が大きな問題となる可能性があるため、話者性の正規化についても検討を行った。
GPHMMの構造決定に関しては、フレーム間相関の時間ラグの最適な大きさにっいて検討を行った。ここで行った実験の範囲では、ほぼ30msから60msの間で良好な結果を与えることが判明した。現状では音素によらず一定の構造を採用しているが、音素毎に異なる構造を採用するほうが有効かもしれない。今後検討を進める予定である。
GPHMMによる連続単語音声認識については、ワンパストライグラムのデコーダを、GPHMMを扱えるよう拡張することで行った。新聞記事の読み上げコーパスに適用した結果、HMM、PHMM、平滑化PHMMなどに比べ、高い性能を与えることを確認した。
来年度は、より大規模な認識実験を行うとともに、実際に生じている現象を詳細に調査することによって、GPHMMの有効性が何に基づくものかを検討する予定である。

  • Research Products

    (1 results)

All Other

All Publications (1 results)

  • [Publications] 牛久祐輔, 小川哲司, 小林哲則: "複数の話者依存モデルを用いた話者空間表現に基づく話者適応"日本音響学会秋季研究発表会講演論文集. 3-1-9. 129-130 (2001)

URL: 

Published: 2003-04-03   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi