大語彙・連続音声を対象とする音声認識では、必然的に膨大となる処理量に対して現実的な時間内で実行可能となるように、認識アルゴリズムをより高度化するための研究が本質的・潜在的に重要である.従来のDTW(dynamic time warping)やHMM(hidden Markov model)による音声認識アルゴリズムは、可能なすべての組み合わせを調べ尽くすという方針のもとに認識アルゴリズムが組み立てられている.DPの技法を利用して能率良く計算する工夫がなされているものの、すべての組み合わせを調べることに基本的に変わりはなく、このままでは認識アルゴリズムの高度化に限界がある. DTWやHMMによる音声認識は、本質的にグラフサ-チの問題である.ビ-ムサ-チの技法による経路の展開に関して、多くの場合、サ-チ対象の格子点までのスコアのみに基づいて枝刈の判定が行われており、サ-チ対象の格子点以降の推定スコアが考慮されていない.bestーfirstサ-チの技法による経路の展開に関して、DTWによる音声認識においては、推定コストの設定法等に問題がある.HMMによる音声認識においては、A^*アルゴリズムに基づく研究が最近盛んに行われるようになった. 本報告書は、以上のような動機及び研究動向のもとで、DTWやHMMによる音声認識アルゴリズムをグラフサ-チの問題とみなして行った研究成果を取りまとめたものである.第1章では、ビ-ムサ-チの技法を利用するDTWによる音声認識に関する研究成果を述べる.第2章では、bestーfirstサ-チの技法を利用するDTWによる音声認識に関する研究成果を述べる.第3章では、bestーfirstサ-チの技法を利用するHMMのViterbiアルゴリズムによる音声認識に関する研究成果を述べる.
|