2000 Fiscal Year Annual Research Report
時間構造共有化による状態遷移非同期型隠れマルコフモデルによる音声認識
Project/Area Number |
12680375
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
下平 博 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
|
Co-Investigator(Kenkyū-buntansha) |
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
嵯峨山 茂樹 北陸先端科学技術大学院大学, 情報科学研究科, 教授 (00303321)
|
Keywords | 非同期遷移型HMM / 時間方向共有 / 特定話者音声認識 |
Research Abstract |
本研究の目的は、時間構造の共有化という新しい概念を導入することによって、音声認識の音響モデルとして用いられている隠れマルコフモデル(HMM)の共有化法の拡張を行い、認識精度の向上を図ることである。 研究の初年度にあたる本年度では、非同期遷移HMM(AT-HMM)における状態遷移の同期・非同期のモデル化法として考え得るもの全てについて、その表現能力、音声認識に使用した場合の得失を検討した。その結果、一般のAT-HMMを用いたデコーディング(認識処理)には2段DPあるいはLevel-Building法が基本的には必要であり、通常の同期型HMMに比べて計算量が膨大であることを明らかにした。この問題に対して、非同期構造にある種の順序制約を付加した順序制約付きAT-HMMを考案し、このクラスのAT-HMMは従来の同期型HMMと同様の高速デコーディング法(例えばOne-Pass Viterbi探索法)が利用できることを示した。この、順序制約付きAT-HMMは、「時間方向共有」と呼ばれる新しい共有化法の概念を導入することにより、実現が可能であり、クラスタリングを用いた順序制約付きAT-HMMの学習アルゴリズムを新たに提案した。特定話者に対する連続音素認識実験と孤立単語認識実験による評価を行った。その結果、従来型のHMMと比較して状態数200の状態共有構造から生成したAT-HMMは約30%、状態数400から状態共有構造から生成したAT-HMMは、約25%の誤り削減率が得られた。複数混合化を行った場合も、同様の誤り削減率が得られた。
|
-
[Publications] S.Matsuda: "Feature-dependent Allophone Clustering"Proc.International Conference on Spoken Language Processing (ICSLP2000). 2. 413-416 (2000)
-
[Publications] 松田繁樹: "複数混合分布を持つ順序制約付き非同期遷移型HMM"日本音響学会2000年秋季研究発表会講演論文集. 21-22 (2000)
-
[Publications] S.Matsuda: "Asynchronous-Transition HMM"International conference on Acoustics, Speech, and Signal Processing (ICASSP-2000). 3. 1001-1004 (2000)