本研究では、双方向型の探索方式に基づく連続音声認識に関する研究を行った。双方向型の探索とは、入力された音声の始端と終端の両方向から探索を行なうものであり、一方向側の探索で認識誤りを起こしても、別方向側の探索で誤りを回復できる可能性を持っているため、高精度の認識を行うことができる。従来のleft-to-right型の探索では、初期の段階での認識誤りが致命的なエラーを引き起こす可能性があったが、双方型の探索を行うことで、このような認識誤りを減少させることができる。 我々は、隠れマルコフモデル(HMM)に基づく音響モデルを用いて、フレーム(時間)同期One-Pass型の音声認識プログラムを開発し、これにForward-Backward探索アルゴリズムに基づく双方向探索機能を組み込んだ。この認識プログラムでは、前向き探索で得られる認識仮説と後向き探索で得られる認識仮説の2つを組み合わせることにより、入力音声全体に対する認識仮説を構成するが、本プログラムでは後ろ向き探索時には有限オートマトンを、また前向き探索時には有限オートマトンあるいは文脈自由文法が使用可能であるように設計した。 また、開発した音声認識プログラムを用いて、さまざまな探索条件のもとでの評価実験を行った。認識実験では、評価音声データとしATR自動翻訳電話研究所発行の研究用日本語音声データベースに収録されている音声データを用いた。認識実験においては、まず後向き方向に認識を行い各フレーム毎に有限オートマトンの状態番号と、その状態番号における尤度を保存し、保存した情報を用いて前向き方向に有限オートマトン制約あるいは文脈自由文法制約による探索を行った。文脈自由文法制約による探索では、文脈自由文法をLR.構文解析表に展開し、LR.構文解析表の状態番号と有限オートマトンの状態の対応付けを行うことにより、認識仮説の接続可能性チェックを行った。なお、HMMは継続時間長制御なし、子音3状態、母音1状態とした。前向き探索あるいは後向き探索で有限オートマトン制約を使った場合の認識率が77.1%〜87.3%なのに比べ、双方向探索を行うことで認識率を87.5%〜88.6%まで向上させることができ、双方向型探索の有効性を示すことができた。
|