1993 Fiscal Year Annual Research Report
音素セグメンテーションユニットを用いる大語彙単語音声認識システム
Project/Area Number |
05555102
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
今井 聖 東京工業大学, 精密工学研究所, 教授 (50016763)
|
Co-Investigator(Kenkyū-buntansha) |
谷口 一郎 東京工業大学, 精密工学研究所, 助手 (10242314)
|
Keywords | 単語音声認識 / 音素セグメンテーション / 音素ラベリング / 大語彙化 / セグメントラティス / マルチセグメンテーション方式 / マルチレファレンスパターン / 並列音素ラベリング方式 |
Research Abstract |
音素セグメンテーションユニットを用いる単語音声認識システムによる認識実験を通して大語彙化に対する問題点を明らかにし,その解決を試みた. (1)本研究の単語音声認識システムは音素セグメンテーションと音素ラベリングを音響音韻処理として行うものなので,大語彙化によってシステムの規模が大きくなることはない. (2)特定話者認識実験で,単語数1845語,4915語の場合の第3位正解率はそれぞれ96.5%,94.5%であり,数万語の場合には90%以下になることも考えられる。正解率が十分高くない原因として音素セグメンテーションのエラーと音素ラベリングのエラーとがある. (3)セグメンテーションのエラーを低減するために,セグメントラティス生成型のマルチセグメンテーション方式を提案し,単語認識率に換算して数パーセントの認識率の向上をはかった. (4)音素ラベリングにおける主なエラーが,出現頻度の少ない音素において起こることをつきとめた.音素ラベリングはマルチレファレンスパターンを用いて行うが,出現頻度の少ない音素に対するレファレンスパターンの数が少なく,不十分であったために音素ラベリングの正確さを低下させることになった.この問題に対し並列音素ラベリング方式を提案し,有効性を確かめた.
|
-
[Publications] 菅野俊夫: "Generalized Cepstral Modeling of Degraded Speech and its Application to speech Enhancement" IEICE Trans.Fundamentals. E76-A. 1300-1307 (1993)
-
[Publications] 鈴木良弥: "体系的な意味カテゴリーで記述された係り受け関係を利用する日本語文音声認識" 電子情報通信学会論文誌D-II. J76-D-II. 2264-2273 (1993)
-
[Publications] 今井 聖: "並列音素ラベリング(PPL)方式による話者独立単語音声認識システム" 電子情報通信学会論文誌A. J77-A. 143-152 (1994)
-
[Publications] 今井 聖: "信号処理工学" コロナ社(テレビジョン学会編), 201 (1993)