2年目にあたる本年度は初年度の研究に加え、検出された韻律境界の情報と音韻認識に基づく統語解析パ-ザとの融合の研究を行い、韻律情報を音声認識に利用するための研究を行った。 連続音声の認識に先立ち、雑音環境下の単語音声の認識に韻律情報を利用する研究を行った。白色雑音のような定常雑音に対して基本周波数の抽出は影響を受け難いため、頑健な音声認識の一手法として利用できる可能性がある。ATRの最重要単語520単語データベースにおいて、音韻HMMならびに基本周波数パタンの学習に男性話者15名を用い、評価実験用に別の男性話者5名のデータを用いて認識実験を行った。その結果、音韻尤度と基本周波数パタンによる韻律尤度の重みが最適化された場合、誤認識数を音韻HMMのみによる場合の50%に削減できることが分った。しかし、重みを自動的に決定した場合の誤りの改善率は7%程度にとどまり、重みの決定法についてさらなる検討が必要であることが分った。 次に、連続音声において韻律情報を利用するために、まず、発声文章中のアクセント句間の係受けの有無を基本周波数パタンによって推定することを試みた。ATRの連続音声認識データベース(503文)を用いた実験の結果、係り受けの推定精度は、正規分布を仮定してベイス識別で82.0%、Bennettによって近年提案された線形識別法RLPPで87.0%となり、従来より高い推定精度が得られた。ついで、HMMによる音韻認識と句構造推定の結果に、韻律情報による係り受けの信頼度を考慮した形態素間のbigramを統合する手法を新たに考案した。予備的な実験の結果、HMM音韻認識に基づくNーbest候補中に正解が含まれている場合は、誤確認の約半数を本手法によって正解とすることができることが確かめられた。
|