音声言語処理に対し、従来の示量性統計理論を拡張した非示量性統計理論を適用する方法論を開発した。まず、音声認識のための特徴抽出について、周囲雑音・回線の違いから生じる変動に対し頑健な、q-log spectral mean subtraction (q-LMSN)手法を提案し、従来のCMNを用いた手法に比べ優位に性能が高いことを示した。また、音声認識・映像意味インデクシングにおいて、HMMやGMMの出力分布として、周囲雑音の変動に頑健なq-Gauss混合分布を用いる方式を提案し、その効果を確認した。
|