1998 Fiscal Year Annual Research Report
聴覚モデルの高度化とその連続音声認識システムの雑音耐性改善への応用へに関する研究
Project/Area Number |
10650358
|
Research Institution | University of Fukui |
Principal Investigator |
小泉 卓也 福井大学, 工学部, 教授 (80020204)
|
Co-Investigator(Kenkyū-buntansha) |
谷口 秀次 福井大学, 工学部, 助教授 (70115301)
|
Keywords | 音声認識 / 不特定話者 / 話者依存性 / サブワード / セグメンテーション / SCHMM / 連結HMM / マルチHMM |
Research Abstract |
1. 最新の聴覚生理学的知見に基づいて、以前に我々が開発した蝸牛殻の非線形フィードバックモデルをより一層高度なモデル、即ち実際の聴覚特性を良く表現でき、聴神経系の機能をも考慮した聴覚モデルへ改良することを目指してその聴覚モデルの理論的検討を行った。 2. 最終的に聴覚モデルに整合のとれた不特定話者連続音声認識システムを開発するために、まず第一段階として、先に開発したサブワード単位離散単語認識(SWR)システムを基本システムとして使用し、このシステムの話者や環境騒音に対するロバスト性を向上させるための理論的・実験的研究を行った。このSWRシステムは、DHMM(離散分布隠れマルコフモデル)を認識用ツールとして用いているため特定話者向きであるが、音声の音響的特徴の安定した部分として定義されるサブワードを認識単位としているため、音素間の調音結合や単語数の増加に伴う単語辞書の増大などの困難な問題を回避でき、更に高い認識精度を達成できるという特長を有している。実施した具体的研究の項目は、(1)SWRシステムの話者依存性の改善、(2)不特定話者対策としての話者適応方式、(3)ロバストな音声認識システムを構築するためのシステムの改良(音声の入力・分析・サブワードセグメンテーション、符号化、認識などにおける)等である。以上の研究の結果、認識用ツールとしてDHMMの代わりに、入力音声に対して優れた整合性を示し、同時に連続分布HMMに比べて学習時間が比較的短くて済む擬似連続分布HMMを用いた場合、認識精度のみならず話者依存性が従前のシステムに比べてかなり改善されることを認識した。 来年度以降も引き続き、上記研究項目1.、2.に関して更に深く理論的・実験的研究を行う予定である。
|
-
[Publications] Takuya Koizumi: "Improving the Speaker-Dependency of Subword-Unit-Based Isolated Word Recognition" Proceedings of 1998 International Conference on Sooken Languge Processing(ICSLP'98). 2. 345-348 (1998)
-
[Publications] 小泉卓也: "サブワード単位離散単語認識システムの話者依存性の改善" 電子情報通信学会技術研究報告. SP98-47. 15-21 (1998)