2001 Fiscal Year Annual Research Report

時間構造共有化による状態遷移非同期型隠れマルコフモデルによる音声認識

Research Project

Project/Area Number	12680375
Research Institution	Japan Advanced Institute of Science and Technology
Principal Investigator	下平博北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
Co-Investigator(Kenkyū-buntansha)	中井満北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149) 嵯峨山茂樹北陸先端科学技術大学院大学, 情報科学研究科, 教授 (00303321)
Keywords	非同期遷移型HMM / 時間方向共有 / 特定話者音声認識
Research Abstract	本研究の目的は、時間構造の共有化という新しい概念を導入することよって、音声認識の音響モデルとして用いられている隠れマルコフモデル(HMM)の共有化法の拡張を行い、認識精度の向上を図ることである。研究の2年目にあたる本年度は、まず、前年度の成果を受けて順序制約付き非同期遷移HMM(AT-HMM)に研究の焦点を絞り、自動生成法について詳細なアルゴリズムの検討ならびに連続音声認識環境における評価を行った。具体的には、時間共有構造を学習するためのクラスタリングアルゴリムの改良および学習データに存在しない音素環境モデルを生成するためのモデル補間法の開発を行った。その結果、男性2名、女性2名を用いた特定話者音声認識環境において、従来型HMMと比較して10%〜40%の誤り削減率が得られ、前年度より認識性能が向上したことを確認した。次に、AT-HMMを不特定話者環境に用いるために複数混合型の出力確率密度関数におけるパラメータを話者の類似性に注目して共有化する手法を開発した。認識実験の結果、複数話者環境ではAT-HMMの従来型HMMに対する優位性が減少することが確認された。これは、話者によって非同期構造が大きく異なり、異なる非同期構造をうまく補間できていないことが原因であると考えられる。そこで、特徴量の時間的変化(軌道)に注目し、提案法も含めて従来のHMMが単一の軌道しか許さないモデリングであるのに対して複数軌道を有するHMMを最尤基準によって自動生成する手法の検討を開始した。不特定話者環境における予備的な実験によると、複数軌道化による認識性能の僅かなが1らの向上が確認された。次年度はこの手法についても引き続き検討を進める。

Research Products
(1 results)

All Publications (1 results)

[Publications] 松田繁樹: "複数の特徴ベクトル軌道を持つ環境依存音素クラスタの生成"日本音響学会2001年秋季研究発表会講演論文集. 19-20 (2001)