研究課題
音声対話システムを実環境下(公共情報案内、バス運行案内、自動車運転中)で運用する実験を通じて多様な音声コーパスを収集した。収集した音声コーパスは、3箇所の大学に分散して蓄積した。蓄積されたコーパスの一部を利用した音響モデルの学習を、大学毎の計算サーバで部分的に実行し、その途中結果(十分統計量)を、インターネットを介して逐次的に通信することで、分散して音響モデルを学習可能な環境(分散蓄積サーバ、分散計算サーバ、統合再推定サーバ)を構築した。次にコーパス群の中から目的に合った学習データを選択し、学習に利用する機能を付与した。学習用音声を特徴づける指標として、収録音声の雑音対音声比(SNR)、発声者の年齢・性別、学習データに含まれる音素の種類、を想定し、これらの値を指定することで分散音声コーパスから目的に合った学習データを選択し、多様な音響モデルの構築が実現することを示した。さらに、音声を特徴づけるSNRを自動的に推定する方法を研究し、混合ガウス分布により対数パワーをモデル化することで、広い範囲で精度よくSNRを推定することに成功した。SNR毎に異なる音響モデルを作成し、それらを選択利用することで高い音声認識性能が達成できることを確認した。さらに、少量の音声データ毎に予め推定・蓄積されたHMM音響モデルの十分統計量を用いて、高速に音響モデルを再学習する話者適応法の有効性を確認した。多様な雑音環境下で収録された音声のための雑音抑圧方法についても、検討を行った。
すべて 2006 2005
すべて 雑誌論文 (47件) 図書 (1件)
情報処理学会 2006-SLP-60
ページ: 19-24
信学技報 IEICE Technical Report EA2005-96
ページ: 1-6
IEICE Transactions on Information and systems VOL.E89-DNO.3
ページ: 1032-1039
IEICE Trans.Information and Systems Vol.E89-D, No3
ページ: 962-969
ページ: 998-1005
NOLISP 2005
NSIP 2005
Interspeech 2005
ページ: 2665-2668
DSP in Cars 2005
AVBPA2005 LNCS3546
ページ: 739-747
日本音響学会講演論文集 1-1-15
ページ: 831-832
自動車技術会学術講演会前刷集 No.119-05
ページ: 17-20
信学技報 IEICE Technical Report TL2005-14(2005-09)
ページ: 39-44
Forum Acusticum 2005
ページ: 2511-2516
In Proc.INTERSPEECH
ページ: 2621-2624
ICDE 2005
RWCinME
日本音響学会誌 TVRSJ Vol.10
ページ: 257-266
ITSC2005 TC4.4,2005
信学技報 IEICE Technical Report SLP2005-58
情報論的学習理論ワークショップ
ページ: 297-302
電子情報通信学会論文誌 Vol.J88-DII, No.9
ページ: 1780-1789
IEEE Trans.Speech & Audio process. Vol.13,No.4
ページ: 583-592
In Proc.IEEE-ICASSP V0l.1
ページ: 689-692
信学技報 IEICE Technical Report SIP2005-95,SIS2005-44,SP2005-77
ページ: 59-64
信学技報 IEICE Technical Report TL2005-14
日本音響学会講演論文集
ページ: 843-844
Acoustical Science and Technology Vol.26No.5
ページ: 453-455
ページ: L199-L202
ページ: 2539-2542
ページ: L203-L206
ページ: 841-842
情報処理学会 音楽情報科学研究会 Vol.2005No.82
INTERSPEECH2005
ページ: 1141-1144
日本音響学会講演論文集 2005年秋季研究発表会
ページ: 77-78
FIT2005 第4回情報科学技術フォーラム
ページ: 289-292
FIT2005 第4回情報科学技術フオーラム 2005年秋季研究発表会
信学技報 IEICE Technical Report SIP2005-85-58
ページ: 53-58
日本音響学会講演論文集 1-7-16
ページ: 23-24
日本音響学会講演論文集 1-1-16
ページ: 833-834
日本音響学会講演論文集 3-Q-9
ページ: 665-666
日本音響学会講演論文集 3-Q-7
ページ: 661-662
日本音響学会講演論文集 3-Q-10
ページ: 667-668
IEEE Automatic Speech Recognition and Understanding Workshop(ASRU)
ページ: 168-173
Proceeding of Interspeech 2005
ページ: 845-848
Proceedings of Interspeech
ページ: 293-296