原音を用いずに劣化音声のみから音声了解度を推定する。このためには、劣化音声から原音声をまず推定する必要がある。劣化として加算雑音と残響に分けてまず扱うことにし、まずは別々に各々の劣化を含む音声から原音を推定することを検討した。このためDeep Neural Net(DNN)を用いて劣化音声から原音声を推定することを試みた。そののち、この推定原音を用いて劣化音声との差を算出し、これの差から主観音声了解度の推定をさらに別のDNNを用いて試みた。 (1)加算雑音に対しては、DNNモデルの学習パラメータの最適化により原音推定精度が向上した。この結果、推定音声了解度と実際被験者を用いて測定した主観了解度間の相関は0.93程度、平均二乗誤差は0.11まで抑えることができた。 (2)残響に対しては、まず残響の影響を測ることができる音声サンプルを準備し、この主観音声了解度を測定した。この結果、残響は実環境でみられる程度の劣化範囲では加算雑音ほど了解度に影響しないことが分かった。残響劣化音声に対しても原音の推定を試み、十分な精度で推定が可能であることも分かった。今後は残響劣化音声の了解度推定を試みる。 以上のように、特に加算雑音劣化音声に対しては、原音を用いなくても十分実用的な精度で音声了解度が推定可能であることが分かった。一般的に実環境で録音される音声には加算雑音と残響が同時に含まれるが、残響の了解度への影響は比較的少ないことが分かったので、加算雑音に対する劣化が推定できれば実用的には十分な推定精度が確保できたと考えられる。
|