2007 年度実績報告書

実環境を想定したオンラインによる音響モデルの構造化に基づく頑健な音声認識

研究課題

研究課題/領域番号	18700166
研究機関	千葉大学
研究代表者	西田昌史千葉大学, 大学院・融合科学研究科, 助教 (80361442)
キーワード	音声認識 / 環境適応 / 話者適応 / 強化学習 / 音響モデル / クラスタリング
研究概要	本研究では,限定された複数の話者・雑音が変動する環境下を想定して,オンラインで強化学習により音響モデルを適応し,クラスタリングする手法について検討を行った.強化学習における状熊の定義としては,フレーム単位での認識結果と発話全体を考慮した認識結果の一致度に着目し,モデルの適応量を制御した.このように音響的な特徴変化を見ることで,誰が話しているか,どんな環境であるかを検出することなく,環境の変化に適応することが可能となった.また,クラスタリングにおいては,現在の環境が過去に学習したものかどうかを判断し,過去に学習したものであればそのモデルを選択することで,高速な適応が可能となりさらにモデルを強化し,未知な環境であればモデルを新たに学習することが可能となった.規在の環境が既知か未知かを判断する手法としては,音素ごとに音響モデルのHMMの各状態における平均ベクトルを束ねて得られたベクトルを音響空間にマッピングし,音素間のベクトルによるユークリッド距離によりモデル間の類似度を定義することで,高速なモデル探索を実現した.雑音環境下連続数字認識コーパスであるAURORA-2Jを用いて,複数話者・雑音環境におけるオンラインによる音響モデルのクラスタリング手法の評価実験を行った.話者4名とレストランや空港などの10dBの環境雑音が繰り返し変動する発話を800発話用意し,話者や雑音の種類を変えて24パターンデータを作成した.その結果,適応を行わない場合で40.7%,従来のMAP適応では53.6%,提案手法では55.9%の認識精度が得られた.また,各データセットごとに生成されたクラスタを分析したところ,平均して6個の適応モデルが話者や雑音の変動に応じて学習されていた.以上の結果から,提案手法の有効性を確認することができた.

研究成果
(3件)

すべて 2007

すべて雑誌論文 (1件) 学会発表 (2件)

[雑誌論文] 強化学習に基づく音声認識(1)-話者・雑音への適応とクラスタリング-2007
- 著者名/発表者名
  西田昌史
- 雑誌名
  
  Journal of Signal Processing Vol.11
  
  ページ: 353-358
[学会発表] 大語彙連続音声認識におけるQ-learningに基づく教師なし適応2007
- 著者名/発表者名
  西田昌史
- 学会等名
  日本音響学会2007年秋季研究発表会
- 発表場所
  山梨大学
- 年月日
  2007-09-20
[学会発表] Unsupervised Training of Adaptation Rate Using Q-learning in Large Vocabulary Continuous Speech Recognition2007
- 著者名/発表者名
  Masafumi Nishida
- 学会等名
  INTERSPEECH
- 発表場所
  Antwerp, Belgium
- 年月日
  2007-08-28

2007 年度 実績報告書

実環境を想定したオンラインによる音響モデルの構造化に基づく頑健な音声認識

研究代表者

西田 昌史 千葉大学, 大学院・融合科学研究科, 助教 (80361442)

研究成果

[雑誌論文] 強化学習に基づく音声認識(1)-話者・雑音への適応とクラスタリング-2007

著者名/発表者名

雑誌名

[学会発表] 大語彙連続音声認識におけるQ-learningに基づく教師なし適応2007

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Unsupervised Training of Adaptation Rate Using Q-learning in Large Vocabulary Continuous Speech Recognition2007

著者名/発表者名

学会等名

発表場所

年月日

2007 年度実績報告書

西田昌史千葉大学, 大学院・融合科学研究科, 助教 (80361442)