2000 Fiscal Year Annual Research Report

ハンズフリー音声認識のためのロバストな音響モデルの開発

Research Project

Project/Area Number	12680376
Research Institution	Shinshu University
Principal Investigator	松本弘信州大学, 工学部, 教授 (60005452)
Co-Investigator(Kenkyū-buntansha)	山本一公信州大学, 工学部, 助手 (40324230)
Keywords	ハンズフリー / 遠隔音声 / 残響音声 / HMM合成 / 雑音HMM
Research Abstract	(1)付加雑音と伝送歪みに頑健な音響パラメータの検討: ハンズフリー音声認識では,話者とマイクロホン間の相対位置が変動するため,直接音と環境雑音及び残響音の比が変動する.このような変動に頑健な音響モデルを構築するするため,加法性及び乗法性歪みに頑健なパラメータとして,線形振幅と対数振幅の中間的な振幅スペクトル領域でのフォワードマスキングに基づく動的一般化ケプストラムを検討した.その結果、一般化対数の巾数を0.1に設定することにより,伝送歪みと加法性雑音の両方の影響を低減できることを明らかにした.更に,話者とマイクロホン間の距離が20〜200cmで変動する音声を用いて検討した結果,無雑音HMMによる認識では,比較的SNRの良い白色雑音環境において従来法よりも高い認識精度を与え,100cm以下であれば90〜95%の認識精度を維持できることが分かった. (2)セグメント単位HMMとその雑音及び残響特性の補償の検討: 環境雑音にロバストなHMMを実現するため、セグメントを単位とするHMMにおいて,正規分布の平均と共分散を逆KL展開を用いてフレーム単位のパラメータに変換することによりPMC法を適用する方法を検討し,通常のHMMより耐雑音性が向上することを確かめた.更に,分布の平均ベクトルに空間伝送特性のケプストラムを付加する方法を検討したところ,実際の残響付加音声で学習したHMMには及ばないことがわかった.これは,空間伝送特性のインパルス応答が分析窓長より遥かに長いことによるもので,この問題にどのように対処するかが今後の大きな課題である.

Research Products
(5 results)

All Other

All Publications (5 results)

[Publications] Y.Itoh,H.Matsumoto and K.Yamamoto: "Forward masking on a generalized logarithmic scale for robust speech recognition"Proc.of International Conference on Spoken Language Processing. Vol.III. 530-533 (2000)
[Publications] N.Moroto and H.Matsumoto: "Evaluation of Mel-LPC analysis by a large Vocabulary Japanese dictation"Proc.of West PRRAC VII. Vol.2. 93-96 (2000)
[Publications] H.Matsumoto, et al.: "A generalized Dynamic Cepstrum for hands-free speech recognition"Proc.of HSC Workshop. Vol.1. (2001)
[Publications] K.Yamamoto, et al.: "Evaluation of PMC for segmental unit input HMM in various environments"Proc.of HSC Workshop. Vol.1. (2001)
[Publications] H.Matsumoto and M.Moroto: "Evaluation of Mel-LPC cepstrum in a large vocabulary continuous speech recognition"Proc.of International Conference on Acoustics, Speech Signal Processing. Vol.I. (2001)

2000 Fiscal Year Annual Research Report

ハンズフリー音声認識のためのロバストな音響モデルの開発

Principal Investigator

松本 弘 信州大学, 工学部, 教授 (60005452)

Research Products

[Publications] Y.Itoh,H.Matsumoto and K.Yamamoto: "Forward masking on a generalized logarithmic scale for robust speech recognition"Proc.of International Conference on Spoken Language Processing. Vol.III. 530-533 (2000)

[Publications] N.Moroto and H.Matsumoto: "Evaluation of Mel-LPC analysis by a large Vocabulary Japanese dictation"Proc.of West PRRAC VII. Vol.2. 93-96 (2000)

[Publications] H.Matsumoto, et al.: "A generalized Dynamic Cepstrum for hands-free speech recognition"Proc.of HSC Workshop. Vol.1. (2001)

[Publications] K.Yamamoto, et al.: "Evaluation of PMC for segmental unit input HMM in various environments"Proc.of HSC Workshop. Vol.1. (2001)

[Publications] H.Matsumoto and M.Moroto: "Evaluation of Mel-LPC cepstrum in a large vocabulary continuous speech recognition"Proc.of International Conference on Acoustics, Speech Signal Processing. Vol.I. (2001)

松本弘信州大学, 工学部, 教授 (60005452)