本研究では妨害を含む音声の了解度を被験者を用いずに、計算により予測する方法を提供することを目的とする。このため音声認識システムを利用して、その認識結果ならびに途中経過から了解度を推定する。妨害音のある入力音声を単語対のみを許す認識文法を用いて認識する。複数の単語音声の認識率や、その認識スコアなど認識の中途結果を用いて了解度を推定する。昨年度までに基本的な音声認識システムの構成と立ち上げ、並びに話者適応モデルの学習と評価を完了したので、今年度はさらに雑音適応モデルの学習、並びにその詳細評価を主要な目標とした。 1.固定量雑音適応モデルの学習と評価 雑音種類は統一して、混入雑音量を固定した音声を用いて雑音適応モデルを学習し、詳細評価した。 この結果、同一雑音量の試験音に対しては大幅に性能向上が得られ、その推定量は主観評価値とそん色ないレベルまで達することが分かった。しかし評価雑音量と学習時雑音量が一致しない場合は性能低下が大きいことも分かった。 2.マルチコンディション 1.で述べた雑音量不一致の場合の劣化を低減するため、複数種類の雑音量を混入した学習音声を用いて、いわゆるマルチコンディションモデルを学習し、再度詳細評価した。その結果、試験音声と学習音声の雑音量が一致しない場合は1.のモデルより性能は劣るものの、一致しない場合の性能は全体的に大幅に向上することが分かった。 なお、雑音種を混合したマルチコンディションモデルも学習し、評価を試みたが、性能向上が見込めないことが早い段階で判明したため、このアプローチは断念することとした。
|