研究概要 |
音声の大きな変動要因である発生速度の変動と,個人差による変動を予備認識結果を利用して予測し,正規化するシステムの構築を目指して研究を行った.すなわち,入力音声に対してまず音素の認識を行い,その認識結果から発生速度を抽出し,それに基づいて各音素標準パターンの長さを予測する.発生速度による音素標準パターンの変動を解析し,発生速度と入力音声中の母音の平均持続時間とが密接に関係することを見出し,音素標準パターンの長さの変動を入力音声中の平均母音長の1次関数として表し,予測する方法を開発した.男性5名,女性10名の各話者が発声した212単語をもとに,音素標準パターンの長さの予測式と音素標準パターンを作成し,他の男性話者5名の発声した212単語の単語認識にこの方法を適用した結果,頓悟認識率が95.6%から97.3%に改善された.さらに,音素認識における持続時間制約としてこの方法を利用した結果,音素正解率は71.8%から86.3%へと大きく改善された. 同じく音素の予備認識結果から個人差の変動を音素ごとに予測し,音素標準パターンを再構築する方法を開発した.以上の処理によって入力音声からの情報を基にして,発声速度や個人差を考慮した音素標準パターンの再構築をリアルタイムで可能にし,より柔軟で高性能な連続音声認識システムを構築した.
|