2003 Fiscal Year Annual Research Report
Project/Area Number |
15700163
|
Research Institution | The University of Tokushima |
Principal Investigator |
柘植 覚 徳島大学, 工学部, 助手 (00325250)
|
Keywords | 音声認識 / ベクトル量子化 / 周波数特性の変動 / 分散型音声認識 |
Research Abstract |
本年度は「低認識精度発声」に関する研究の前段階として、分散型音声認識における音声認識精度の変化とその問題点に関して調査研究を進めた。また、それと並行し低認識精度発声には話者適応手法が有効であると考えられるので話者適応に関する研究も行った。 本年度の知見では、分散型音声認識においては伝送のためにベクトル量子化を行い特徴パラメータを圧縮する。音響モデル学習時にはこの量子化された特徴パラメータが悪影響を及ぼし、混合正規分布の分散値の学習が困難になることがわかり、音声認識精度を低下させる。このため、音響モデル学習の際には量子化されていない特徴パラメータを用いることにより、量子化による音声認識精度低下を抑制できることがわかった。 また、低認識精度発声の原因のひとつになると想像される入力デバイスの周波数特性の差異による音声認識精度低下に関して研究を行った。特に分散型音声認識は先の問題と同様に量子化が認識精度低下の要因となることがわかった。周波数特性に差異が生じた場合、規定されているベクトル量子化コードブックと特徴パラメータ間に歪みが生じ、適切に量子化できないことがわかった。そこで、量子化コードブックの平均に1発声の平均特徴パラメータを近づけるように正規化を行うことにより、周波数特性の差異による認識精度低下が抑制することが可能であることがわかった。さらに、この手法を実時間で実行できるように改良を加えた。 来年度は本年度の研究成果を基に低認識精度発声に関し、原因追求および認識精度改善を行う予定である。
|
Research Products
(6 results)
-
[Publications] Satoru Tsuge: "Evaluation of ETSI Advanced Front-end and Bias Removal Method on the Japanese Newspaper Article"Proceedings of EUROSPEECH2003. 2145-2148 (2003)
-
[Publications] Shingo Kuroiwa: "Blind Equalization Techniques for ETSI Standard DSR Front-end"Proceedings of ICASSP2003. 1. 392-395 (2003)
-
[Publications] Koji Tanaka: "An acoustic model adaptation using HMM-based speech synthesis"Proceedings of Natural Language Processing and Knowledge Engineering. 1. 368-373 (2003)
-
[Publications] Shingo Kuroiwa: "Blind equalization via minimization of VQ distortion for ETSI standard DSR front-end"Proceedings of Natural Language Processing and Knowledge Engineering. 1. 585-590 (2003)
-
[Publications] 柘植 覚: "周波数特性の変動に頑健な実時間分散音声認識手法"情報処理学会 研究報告. 42. 13-18 (2003)
-
[Publications] 柘植 覚: "分散型音声認識のための実時間周波数特性正規化手法"日本音響学会 秋季講演発表会. 111-112 (2003)