2001 Fiscal Year Annual Research Report
時間構造共有化による状態遷移非同期型隠れマルコフモデルによる音声認識
Project/Area Number |
12680375
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
下平 博 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
|
Co-Investigator(Kenkyū-buntansha) |
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
嵯峨山 茂樹 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (00303321)
|
Keywords | 非同期遷移型HMM / 時間方向共有 / 特定話者音声認識 |
Research Abstract |
本研究の目的は、時間構造の共有化という新しい概念を導入することよって、音声認識の音響モデルとして用いられている隠れマルコフモデル(HMM)の共有化法の拡張を行い、認識精度の向上を図ることである。 研究の2年目にあたる本年度は、まず、前年度の成果を受けて順序制約付き非同期遷移HMM(AT-HMM)に研究の焦点を絞り、自動生成法について詳細なアルゴリズムの検討ならびに連続音声認識環境における評価を行った。具体的には、時間共有構造を学習するためのクラスタリングアルゴリムの改良および学習データに存在しない音素環境モデルを生成するためのモデル補間法の開発を行った。その結果、男性2名、女性2名を用いた特定話者音声認識環境において、従来型HMMと比較して10%〜40%の誤り削減率が得られ、前年度より認識性能が向上したことを確認した。次に、AT-HMMを不特定話者環境に用いるために複数混合型の出力確率密度関数におけるパラメータを話者の類似性に注目して共有化する手法を開発した。認識実験の結果、複数話者環境ではAT-HMMの従来型HMMに対する優位性が減少することが確認された。これは、話者によって非同期構造が大きく異なり、異なる非同期構造をうまく補間できていないことが原因であると考えられる。そこで、特徴量の時間的変化(軌道)に注目し、提案法も含めて従来のHMMが単一の軌道しか許さないモデリングであるのに対して複数軌道を有するHMMを最尤基準によって自動生成する手法の検討を開始した。不特定話者環境における予備的な実験によると、複数軌道化による認識性能の僅かなが1らの向上が確認された。次年度はこの手法についても引き続き検討を進める。
|