研究概要 |
本年度は入力音声への適応機能の一つとして,オンライン・リアルタイム話者適応を目指した研究を行った.すなわち,不特定話者音素標準パターンを利用して入力音声を予備認識した結果を利用して,音素標準パターンを修正し,話者適応を行う方法である.オンライン・リアルタイム話者適応の大きな問題点は,学習サンプルが極めて少ないことである.通常の話者適応では少なくとも1分程度の事前発声が必要であるが,オンライン・リアルタイム話者適応では,学習サンプルは,高々2〜3秒程度の音声である.また,音声サンプルの正しい認識結果も得られるとは限らないことである.本年度は,オンライン・リアルタイム話者適応法開発のための個人性の分析を主に行った.まず特徴パラメータとして,音声処理で良く用いられるケプストラムを用い,16次元のケプストラムパラメータが個人差によってどのような変動を示すかを分析した.母音については,ケプストラムの多次元空間上での平行移動でほぼ近似できることがわかった.従って認識された母音の各母音標準パターンから移動ベクトルを平均することによって,少ないサンプルから全母音の話者適応が可能なことが明らかになった.また,その際,移動方向も考慮することによって,誤認識の影響を除去できる可能性があることもわかった. 子音については,母音の移動方向との相関は見られなかったが,子音グループ,例えば無声破裂音や,有声破裂音のグループと限定すると,それぞれのグループで,同一方向への移動が観測された.
|