今年度は,了解度推定を観測された物理的な特徴から直接行うのではなく,中間特徴量を利用することを検討した。シミュレーション音源ではSTOI (Short Time Objective Intelligibility),SIMI (Speech Intelligibility Prediction Based onMutual Information),ESTOI (Extended STOI)の3指標の3種を比較し,平均的にはSIMIの精度が高いことが判明した。 次に,実測音源に対してはMFCCを音響特徴量として,主観評価指標であるLDR (Listening Difficulty Rate)を予測するモデルを機械学習モデルで検討した。このパターンは昨年度の検討では教師となる主観評価値が少なく,RMSE (Root MeansSquared Error)が0.20となった。そこで,MFCCから中間特徴量となる客観評価値を予測モデルと,中間特徴量から主観評価値を予測する2モデルの組み合わせを検討した。その結果,中間特徴量に用いる指標として,シミュレーション音源と同様にSTOI,SIMI,ESTOIの3指標を比較した。その結果,最適な中間特徴量はSNRにより異なったものの,SNRが0 dBから30 dBの範囲では以前の検討よりも良い,RMSE0.14以下を達成した。さらに実環境で動作する実機モデルのIoT版を作成し,5つのモジュールで動作することを確認した。
|