研究概要 |
本年度は,入力音声の発話速度への適応に重点を置いて研究を行った.一般に,発話速度は,およそ平仮名に対応するモ-ラの長さで表すのが妥当と考えられている.モ-ラは拍の単位とも呼ばれ,発話のテンポやリズムを表すものと考えられている.本研究では,最初にモ-ラ長や音素長,母音長と発話速度の関係を解析した.その結果,発話速度は従来から言われてきた平均モ-ラ長の関数としてだけでなく,平均母音長の関数としても予測可能なことを明らかにした.音声認識の精度の観点から比較的安定に抽出できる平均母音長の1次関数として音素の持続時間を予測するモデルを提案した.男性5人,女性5人の発声した212単語データから1次関数の係数を定め,他の男性話者5人,女性話者5人の音声データに適用して誤差を評価した.予測式は音素別,先行音素別,後続音素別,先行音素別と後続音素別の加重平均,前後の音素環境別に立てた場合それぞれについて比較した.持続時間を予測する場合は,音素の前後環境を考慮して環境別に予測式を立てるのが有効であるが,これも精度の観点から,先行音素別と後続音素別に立てた予測式の加重平均で予測するのがもっとも有効であることを確かめた.予測誤差は,平均モ-ラ長の関数として予測式を立てるよりも平均母音長の関数として予測式を立てる方が少ないことがわかった.予測誤差は,20〜30msであった.次にこの方法に基づく単語音声認識システムを構築した.すなわち,最初に音素の予備認識を行い,そこから平均母音長を求める.平均母音長から予測された音素持続時間を基にして単語の標準パターンを再構成する.この標準パターンと入力音声とをDPマッチングで比較し認識する.標準パターンを再構成しない場合に比べ,1.7%の単語認識率の改善が得られた.
|