2003 Fiscal Year Annual Research Report

聴覚特性に基づくハンズフリー音声認識手法の開発

Research Project

Project/Area Number	15500106
Research Institution	Shinshu University
Principal Investigator	松本弘信州大学, 工学部, 教授 (60005452)
Co-Investigator(Kenkyū-buntansha)	山本一公信州大学, 工学部, 助手 (40324230)
Keywords	ハンズフリー音声認識 / 実環境音声認識 / 隠れマルコフモデル / 一般化対数 / 動的ケプストラム / 順行マスキング / 音節モデル / 音節連鎖モデル
Research Abstract	ハンズフリー音声認識を実現するため、本年度は次の項目について研究を行った。 (1)般化動的ケプストラムの開発残響と付加雑音の影響を低減するため、メルフィルタバンクスペクトルを用いて、加法性と乗法性雑音に頑健な特徴パラメータとして、一般化対数スケール上での順行マスキングを模擬した一般化動的ケプストラムを開発した。特に、一般化対数の冪数を0.1に設定し、一般化動的ケプストラムの分散を正規化することにより、通常の対数よりも認識精度が向上することを明らかにした。また、音声のスペクトルに類似した雑音については、SNRの低い部分の挿入誤りがマスキング量を増すことにより減少することを見出し、低SNR部と高SNR部でマスキング量を切り替える手法を開発した。 (2)短時間スペクトル領域における残響のモデル化の検討残響を与える室内音響伝送系の短時間スペクトル上での残響の影響を、短時間パワースペクトル時系列上での線形フィルタでどの程度残響を模擬することができるかを検討した。その結果、300msの残響に対し、実残響音声に非常に近い短時間スペクトル系列を生成することが可能なことを確かめた。 (3)高精度音節HMMの開発大語彙の音声認識においては、音響モデルを雑音付加音声に適応する際、モデルの単位は長い方がHMMの各状態のSNRをより正確に表すことができると考えられる。そこで、音節及び音節連鎖をサブワードとするHMMを検討した。誤り頻度に基づき音節連鎖を構成することにより、通常のトライホンの1/3程度のモデルパラメータでトライホンと同等の認識精度が得られる音節・音節連鎖HMMを開発した。

Research Products
(2 results)

All Publications (2 results)

[Publications] H.Matsumoto, T.Ichikawa, K.Yamamoto: "Improved forward masking on a generalized logarithmic scale for robust speech recognition"Proc.of 18^<th> International Congress on Acoustics. (発表予定). (2004)
[Publications] K.Yamamoto, T.Ikeda, H.Matsumoto, et al.: "Syllable-connected models for Japanese speech recognition"Proc.of 18^<th> International Congress on Acoustics. (発表予定). (2004)