2007 Fiscal Year Annual Research Report
実環境を想定したオンラインによる音響モデルの構造化に基づく頑健な音声認識
Project/Area Number |
18700166
|
Research Institution | Chiba University |
Principal Investigator |
西田 昌史 Chiba University, 大学院・融合科学研究科, 助教 (80361442)
|
Keywords | 音声認識 / 環境適応 / 話者適応 / 強化学習 / 音響モデル / クラスタリング |
Research Abstract |
本研究では,限定された複数の話者・雑音が変動する環境下を想定して,オンラインで強化学習により音響モデルを適応し,クラスタリングする手法について検討を行った.強化学習における状熊の定義としては,フレーム単位での認識結果と発話全体を考慮した認識結果の一致度に着目し,モデルの適応量を制御した.このように音響的な特徴変化を見ることで,誰が話しているか,どんな環境であるかを検出することなく,環境の変化に適応することが可能となった.また,クラスタリングにおいては,現在の環境が過去に学習したものかどうかを判断し,過去に学習したものであればそのモデルを選択することで,高速な適応が可能となりさらにモデルを強化し,未知な環境であればモデルを新たに学習することが可能となった.規在の環境が既知か未知かを判断する手法としては,音素ごとに音響モデルのHMMの各状態における平均ベクトルを束ねて得られたベクトルを音響空間にマッピングし,音素間のベクトルによるユークリッド距離によりモデル間の類似度を定義することで,高速なモデル探索を実現した.雑音環境下連続数字認識コーパスであるAURORA-2Jを用いて,複数話者・雑音環境におけるオンラインによる音響モデルのクラスタリング手法の評価実験を行った.話者4名とレストランや空港などの10dBの環境雑音が繰り返し変動する発話を800発話用意し,話者や雑音の種類を変えて24パターンデータを作成した.その結果,適応を行わない場合で40.7%,従来のMAP適応では53.6%,提案手法では55.9%の認識精度が得られた.また,各データセットごとに生成されたクラスタを分析したところ,平均して6個の適応モデルが話者や雑音の変動に応じて学習されていた.以上の結果から,提案手法の有効性を確認することができた.
|
Research Products
(3 results)