研究概要 |
本研究では妨害を含む音声の了解度を、被験者を用いずに計算により予測する方法を提供することを目的とする。本年度は本研究で用いる音声認識システムや音響モデルを詳細検討し、評価した。 1.基本音声認識システムの立ち上げ 二者択一型了解度試験DRT単語対認識用文法を準備し、DRT単語モデルの初期モデルなども用意した。言語モデルは十分機能している感触を得ていたが,不特定話者モデルでは雑音のない音声に対しても十分な精度を得られないことを前年度確認していたので、モデルの精度向上策を検討した。 2.話者適応モデルの学習と評価 まず各話者毎に適応したモデルを学習した。各話者の標本毎にその話者に適応したモデルを用いて了解度推定を試み、不特定話者モデルに比べ大幅に性能向上を実現できる見通しを得た。主観評価により得た了解度との相関は、不特定話者モデルに比べ約0.05から0.1向上した。 3.雑音適応モデルの学習と評価 さらに雑音の種類やその量を制限して適応学習したモデルを用いて,更に大幅な精度向上を確認した。主観評価により得た了解度との相関は、不特定話者モデルに比べ雑音種によっては約0.2向上した。しかし適応学習雑音量が認識時の雑音量と異なる時は精度が低下したため,各種SN比を混合した学習標本を用いた最適な学習方法について検討を進め、全体の認識率としてはやや低めながら、あらゆるSN比に安定した性能が得られること確認した。 以上をIEEE ICASSPに投稿したが不採録となったため,来年度ISCA Interspeechに改めて内容を増強して投稿するとともに,全体の成果を電子情報通信学会に本論文として投稿する予定である。
|