1.研究の目的 大語豪・連続音声を対象とした本格的な音声認識を現実的な時間内で実行可能となるように、種々の知識を駆使して処理量をドラスティックに削減するためのStrategyを確立し、認識アルゴリズムをより高度化する。 2.研究内容 フレ-ム同期DPマッチングにビ-ムサ-チを導入して計算量低減をはかる音声認識をDPビ-ムサ-チという。これまでのDPビ-ムサ-チでは、最小累積距離を求めてそれとの差が一定値以内の累積距離の格子点を一律に残し、かつ、枝刈のための閾値関数のパラメ-タは、入力音声全体にわたって同じ値をとる。 今年度は、以下の項目について研究した。(1)入力音声の各フレ-ムにおいて、サ-チ対象の格子点の累積距離の他に、その格子点が属する標準パタ-ン内の最小累積距離も用いて、正解標準パタ-ンに属する格子点の統計的性質を利用した枝刈の、閾値関数設定法。(2)最適DPパス上の格子点を逃がすことなく、入力音声の途中で閾値関数のパラメ-タをより小さい値に変更する、閾値関数の動的設定法。 3.研究成果 単語音声認識実験により、次のことが明らかになった。(1)入力音声の始端付近におけるマッチングの良し悪しに影響されにくい累積距離を考案し、それを用いることにより、枝刈のための閾値関数のパラメ-タを入力音声の始端から数フレ-ムの時点でより小さい値に変更することができ、従来の簡便な枝刈の方法に比べて、計算量を約1/5に低減できる。(2)ビ-ム内の標準パタ-ンが1種類になった時点で認識結果が確定することから、入力音声のほとんどはかなり早いフレ-ムで処理を打ち切ることができる。(3)今後は、入力音声の途中で生じたマッチングの悪さにより最適DPパス上の格子点を逃す場合の対策が課題である。
|