音声の生成モデルを時変複素AR(TV-CAR)モデルと仮定し、解析信号をターゲットとする、時変複素音声分析法の構築を行っている。従来のARモデルを時変複素化するために、AR係数を任意の複素基底関数による展開で記述し、展開の係数を音声分析法で推定する。 既に、MMSE推定による音声分析法とHuber's Robust M推定による2種類の音声分析法の提案を行っている。今回は、ロバスト分析法として、補助変数(IV)法に基づくTV-CAR音声分析法の構築を行い、白色雑音が付加された実音声を用いてスペクトル推定を行った。補助変数には再合成信号を、入力には予測残差信号の絶対値がある値以下のサンプルをカットした信号を採用した。繰り返し演算によるパラメータ推定アルゴリズムを構築した。白色雑音を付加した自然音声でスペクトル推定を行った結果、SNRが低くなると、LPC分析の推定スペクトルは極が潰れた、平坦なスペクトルになっていくが、既に提案しているMMSE推定に基づくTV-CAR分析やM推定に基づくTV-CAR分析、今回提案したIV分析は平坦度の小さいスペクトルが推定される。IV分析は時変量が強調されるためか、ランニングスペクトルがやや不安定になるが、M推定分析では安定したランニングスペクトルが推定できることが示された。MMSEでもロバストな推定を実現できる理由は、解析信号を用いた複素分析のため、低周波数領域の推定精度が実数分析より高いためである。 さらに、音声認識、音声符号化への適用として、MMSEに基づくTV-CAR分析を用いた、DPマッチングを用いた単語音声認識とパルス/雑音列を音源とする音声分析合成の検討を行った。音声認識では、まだ、予備的な実験のみであるが、複素時変音声分析を用いた場合、複素LPC分析やLPC分析より良好な認識率が得られることが確認できた。
|