2004 年度実績報告書

低認識精度発声に対する音声認識に関する研究

研究課題

研究課題/領域番号	15700163
研究機関	徳島大学
研究代表者	柘植覚徳島大学, 工学部, 助手 (00325250)
キーワード	音声認識 / 長短期間の音声変動 / 分散型音声認識 / 分散型話者認識 / Earth Mover's Distance
研究概要	本年度は「低認識精度発声」に関する研究の前段階として、分散型音声認識における音声認識精度の変化とその問題点に関して調査研究を進めた。また、それと並行し低認識精度発声を確認するため話者認識手法の検討も行った。また、音声収集を行ってきた特定話者の大規模音声データをデータベースとして使用できるように加工を施し、最終年度に向けた予備実験を行った。本年殿知見では、分散型音声認識における入力系の周波数特性の差異は音声認識精度に影響を与え、低認識精度発声を生み出す原因の一つとなることがわかった。そこで、本年度では実用化も見据えた分散型音声認識のための入力形の周波数特性正規化手法を提案し、その有効性を実験により検証した。また、話者認識においても話者認識が困難な発声があることがわかり、音声の変動を明確に捉える必要がさらにあることがわかった。また、特定話者の大規模データベースを用いた特定話者の音素認識実験を行った。その実験結果より、音響モデル学習データと評価データ間に発声時期の差が生じた場合には音声認識精度が低下する傾向があることがわかった。しかし、それがまだどのような音響的特徴のゆらぎによって引き起こされているかは解明ができていないため、その点は来年度に向けての課題である。また、身体的特徴で風邪をひいている時には音声特徴量が極端に変動し大きく認識精度を低下させることがわかった。本年度の知見を受け、来年度はさらなる詳細な分析を行い、低認識精度発声の解明や認識精度向上のための新しい手法の考案を行っていく予定である。

研究成果

(6件)

すべて 2005 2004

すべて雑誌論文 (6件)

[雑誌論文] ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法2005
- 著者名/発表者名
  柘植覚
- 雑誌名
  
  電気学会論文誌C 125・7
  
  ページ: 120-127
[雑誌論文] Non-negative Matrix Factorizationを用いたベクトル空間情報検索モデルの次元削減手法2004
- 著者名/発表者名
  柘植覚
- 雑誌名
  
  電気学会論文誌C 124・7
  
  ページ: 1500-1506
[雑誌論文] Evaluation of frequency characteristic normalization method with multiple reference cepstrum on the Japanese newspaper article sentences speech corpus2004
- 著者名/発表者名
  Satoru Tsuge
- 雑誌名
  
  Proc.of the third International Conference on Information
  
  ページ: 199-202
[雑誌論文] Speaker Recognition using a Non-parametric Speaker Model Representation and Earth Mover's Distance2004
- 著者名/発表者名
  Umeda Yoshiyuki
- 雑誌名
  
  Proc.of International Workshop on statistical modeling approach for speech recognition, "BEYOND HMM"
[雑誌論文] Distributed Speaker Recognition using Earth Mover's Distance2004
- 著者名/発表者名
  Umeda Yoshiyuki
- 雑誌名
  
  Proc.of International Conference on Spoken Language Processing Vol.3
  
  ページ: 2389-2493
[雑誌論文] Acoustic model adaptation for coded speech using synthetic speech2004
- 著者名/発表者名
  Shingo Kuroiwa
- 雑誌名
  
  Proc.of International Conference on Spoken Language Processing Vol.4
  
  ページ: 2925-2928

2004 年度 実績報告書

低認識精度発声に対する音声認識に関する研究

研究代表者

柘植 覚 徳島大学, 工学部, 助手 (00325250)

研究成果

[雑誌論文] ETSI標準分散音声認識フロントエンドにおける入力系の周波数特性正規化手法2005

著者名/発表者名

雑誌名

[雑誌論文] Non-negative Matrix Factorizationを用いたベクトル空間情報検索モデルの次元削減手法2004

著者名/発表者名

雑誌名

[雑誌論文] Evaluation of frequency characteristic normalization method with multiple reference cepstrum on the Japanese newspaper article sentences speech corpus2004

著者名/発表者名

雑誌名

[雑誌論文] Speaker Recognition using a Non-parametric Speaker Model Representation and Earth Mover's Distance2004

著者名/発表者名

雑誌名

[雑誌論文] Distributed Speaker Recognition using Earth Mover's Distance2004

著者名/発表者名

雑誌名

[雑誌論文] Acoustic model adaptation for coded speech using synthetic speech2004

著者名/発表者名

雑誌名

2004 年度実績報告書

柘植覚徳島大学, 工学部, 助手 (00325250)