2005 Fiscal Year Annual Research Report
分散して蓄積された音声データを用いて多様な音響モデルを作成する方法の研究
Project/Area Number |
15200014
|
Research Institution | Nagoya University |
Principal Investigator |
武田 一哉 名古屋大学, 情報科学研究科, 教授 (20273295)
|
Co-Investigator(Kenkyū-buntansha) |
鹿野 清宏 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00263426)
河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)
|
Keywords | 音声認識 / 音響モデル / 音声コーパス / 分散データベース / 分散学習 / 十分統計量 / 話者適応 |
Research Abstract |
音声対話システムを実環境下(公共情報案内、バス運行案内、自動車運転中)で運用する実験を通じて多様な音声コーパスを収集した。収集した音声コーパスは、3箇所の大学に分散して蓄積した。蓄積されたコーパスの一部を利用した音響モデルの学習を、大学毎の計算サーバで部分的に実行し、その途中結果(十分統計量)を、インターネットを介して逐次的に通信することで、分散して音響モデルを学習可能な環境(分散蓄積サーバ、分散計算サーバ、統合再推定サーバ)を構築した。 次にコーパス群の中から目的に合った学習データを選択し、学習に利用する機能を付与した。学習用音声を特徴づける指標として、収録音声の雑音対音声比(SNR)、発声者の年齢・性別、学習データに含まれる音素の種類、を想定し、これらの値を指定することで分散音声コーパスから目的に合った学習データを選択し、多様な音響モデルの構築が実現することを示した。 さらに、音声を特徴づけるSNRを自動的に推定する方法を研究し、混合ガウス分布により対数パワーをモデル化することで、広い範囲で精度よくSNRを推定することに成功した。SNR毎に異なる音響モデルを作成し、それらを選択利用することで高い音声認識性能が達成できることを確認した。さらに、少量の音声データ毎に予め推定・蓄積されたHMM音響モデルの十分統計量を用いて、高速に音響モデルを再学習する話者適応法の有効性を確認した。多様な雑音環境下で収録された音声のための雑音抑圧方法についても、検討を行った。
|
Research Products
(48 results)