近年の防犯カメラの普及等を反映し、犯罪の模様が記録される機会が増加しているものの、店内放送などの著しい背景雑音により音質が低下し、聴取が完全に不可能となる例が少なくない。そこで本研究では、極めてSNR(信号対雑音比)が低下した音声資料を対象とし、記録されているものの聴取困難な発話内容を理解するための手法の開発を、信号処理技術や機械認識技術を利用して行ってきた。今年度は、昨年度開発に着手した正弦波モデルを用いた手法についての性能評価実験を進めるのに加え、音声認識を用いた手法の開発を行った。 正弦波モデルを用いた手法では、SNRが極めて低いために音声と雑音の振幅が大きく異なることに注目した。つまり信号を正弦波モデルで表現した際に得られる振幅は、音声に由来するものに比べ雑音に由来するものは遙かに小さくなると考えられる。そのため、モデル化された信号の閾値処理による音声の分離を行った。様々なSNRを示す評価用の信号に対して処理を行ったところ、原理的に明らかなようにSNRが0dB以上では大きな効果が得られない一方で、SNRが低下するにつれて抑圧性能が改善し、特に0~-30dBでは安定した性能が得られる事が明らかとなった。 音声認識技術を利用した手法では、利用環境に応じた音響モデルの再構築による認識性能の改善可能性について検討した。音声認識技術を利用する一般的な場面では実時間処理が必須となるが、法科学の場面では事後的な処理が主であるために実時間処理は必須では無く、音響モデルの再構築による認識性能の改善が可能である。実際に認識実験を行ったところ、低音質な音声資料であっても性能の改善が可能であることを確認した。
|