音声区間検出(VAD)は観測信号の音声/非音声区間を自動判別する技術であり,音声信号処理における重要な要素技術である.実環境では,音声以外に背景雑音や残響,非音声信号が混在しているため,これら外乱に頑健なVAD 法が必要とされている.本研究の目的は,実環境で利用可能なVAD 法を実現することである.そのために,経験的モード分解(EMD)による雑音除去と変調スペクトル分析(MSA)による音声/非音声判別,変調伝達関数(MTF)による残響抑圧を有機的に組み合わせたVAD 法を提案する.26年度以前の研究において,背景雑音と非音声信号に頑健な手法を拡張し,VAD と雑音除去の同時処理ができる方法を提案した. 26年度の研究では,前年度までの研究で不十分であった音声/非音声判別に適した特徴の検討を行った.前年度までに固有モード関数(IMF)上で音声/非音声区間を判別し,音声成分のみを再合成することで,VAD と雑音除去を同時に行う方法を提案した.しかし,判別条件の決定において検討が不十分である問題が残っていた.これらの原因により,音声信号の再合成時に音声の情報が著しく失われ,再合成信号に対する音声/非音声判別に失敗する場合があった.提案法を残響環境に拡張後,正確な残響抑圧を行うためには,音声信号を正確に再合成できている必要があり,そのためには音声/非音声判別の正確な基準設定が必要である.今回,2クラスの特徴の分布がどれだけ離れているかを定量的に判断するために,分離度を用いることで判別に適した特徴を調査した.分離度を利用して,音声/非音声信号の判別が正確にできるかを確かめた.その結果,音声と定常雑音,環境音は100 % の精度で判別できた.また,音声と音楽,鳥の鳴き声は80 % 以上の精度で判別でき,音声と音声以外の信号をかなり正確に判別できていることが確認できた.
|