研究概要 |
(1)付加雑音と伝送歪みに頑健な音響パラメータの検討: ハンズフリー音声認識では,話者とマイクロホン間の相対位置が変動するため,直接音と環境雑音及び残響音の比が変動する.このような変動に頑健な音響モデルを構築するするため,加法性及び乗法性歪みに頑健なパラメータとして,線形振幅と対数振幅の中間的な振幅スペクトル領域でのフォワードマスキングに基づく動的一般化ケプストラムを検討した.その結果、一般化対数の巾数を0.1に設定することにより,伝送歪みと加法性雑音の両方の影響を低減できることを明らかにした.更に,話者とマイクロホン間の距離が20〜200cmで変動する音声を用いて検討した結果,無雑音HMMによる認識では,比較的SNRの良い白色雑音環境において従来法よりも高い認識精度を与え,100cm以下であれば90〜95%の認識精度を維持できることが分かった. (2)セグメント単位HMMとその雑音及び残響特性の補償の検討: 環境雑音にロバストなHMMを実現するため、セグメントを単位とするHMMにおいて,正規分布の平均と共分散を逆KL展開を用いてフレーム単位のパラメータに変換することによりPMC法を適用する方法を検討し,通常のHMMより耐雑音性が向上することを確かめた.更に,分布の平均ベクトルに空間伝送特性のケプストラムを付加する方法を検討したところ,実際の残響付加音声で学習したHMMには及ばないことがわかった.これは,空間伝送特性のインパルス応答が分析窓長より遥かに長いことによるもので,この問題にどのように対処するかが今後の大きな課題である.
|