研究概要 |
前年度は単語音声の分析が主であったが,本年度は分節発声について分析を行うとともに入力音声の発声速度を学習し,それに基づいて持続時間の変動の範囲を制限する音素認識法の有効性についても検討した.従来から日本語音声の発声速度は発声中のモ-ラ数で捉えられると考えられてきた.しかし,モ-ラの認識は長母音や二重母音の例に見られるようにかなり困難であり,認識に利用する場合はそれに代わる指標が求められていた.我々は,モ-ラの代わりに母音を用いることを提案し,平均母音長で発声速度を代表した.本年度は,文節発声に対して平均モ-ラ長と平均母音長の優劣の比較,長母音や二重母音を一つの母音として扱うかあるいは二つの母音として扱うかの比較を行った.音素ラベル情報をもつ音声データベースを対象に,平均母音長と平均モ-ラ長を求め,それを基に発声内の各音素の持続時間長を1次の線形予測式で推定し,誤差の大きさを比較した.その結果,発声速度の指標として平均モ-ラ長を利用する場合と平均母音長を利用する場合で大きな差はなく,また長母音や二重母音を区別せずに予測式をたてても大きな差がないことがわかった.さらに我々が提案した修正MLVQ2法による音素認識システムにこの学習機能を組み込んだ.すなわち,入力音声の発声速度とは無関係に多量のデータの分析から得られた各音素の持続時間の最大・最小値の制限を用いて音素認識を行い,その認識結果から平均母音長を計算し,さらにその平均母音長から各音素の持続時間の最大,最小を予測し,それに基づいて再度音素認識を行うシステムである.この最大・最小値は前述の最大・最小値より変動幅が小さくなる.この結果,音素認識率は81.6%から84.7%へと約3.1%の改善が得られた.
|