2002 Fiscal Year Annual Research Report
時間構造共有化による状態遷移非同期型隠れマルコフモデルによる音声認識
Project/Area Number |
12680375
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
下平 博 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30206239)
|
Co-Investigator(Kenkyū-buntansha) |
中井 満 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (60283149)
嵯峨山 茂樹 東京大学, 大学院・情報理工学系研究科, 教授 (00303321)
|
Keywords | 非同期遷移型HMM / 時間方向共有 / 特定話者音声認識 / 複数軌道モデル / 特徴量別音素環境依存モデル / 特徴量依存音素環境クラスタリング |
Research Abstract |
最終年度にあたる本年度は非同期遷移型隠れマルコフモデル(AT-HMM)の詳細な評価、および複数軌道モデルに関する検討を行った。 まず、不特定多数話者環境においてAT-HMMが特定話者環境より性能が低下する問題については詳細な検討を行った。モデルのパラメータ数による比較を行った結果、総スカラー分布数が26000程度ではAT-HMMが優位であるのに対して、52000程度から従来法と同程度か、それを下回る傾向があることが分かった。さらに、特徴量別に状態遷移のタイミングについて調査した結果、特定話者モデルにおいては特徴量間に大きな違いがあるのに対して不特定話者モデルでは遷移タイミングが比較的揃ってきていることが判明した。これは非同期構造が話者によって異っていることを示唆しており、複数の非同期構造を一つのモデルでモデル化することにより非同期構造が薄れてしまったことが原因であると考えられる。 次いで、AT-HMMを利用して、特徴量毎に音素環境依存性が異なることを許した新しいモデル学習法として特徴量依存音素環境クラスタリング法を開発した。特定話者による実験の結果、学習データに関しては従来法より高い認識率が得られ、有効性が確認された。 さらに、不特定話者環境における性能低下問題の一つの解決法として特徴量の時間変化(軌道と呼ぶ)を複数表現するHMMのモデル化を検討し、学習データにおける軌道のクラスタリングによって音素環境依存型の共有構造を有する複数軌道モデルを生成する方式を開発した。不特定話者の切り出し音素認識実験の結果、従来法より1ポイント程度の認識率の改善が確認された。
|
-
[Publications] 松田, 中井, 下平, 嵯峨山: "音素環境クラスタリングを基礎としたマルチパス音響モデルの自動生成"日本音響学会2002年秋季研究発表会講演論文集. 35-36 (2002)
-
[Publications] 松田, 中井, 下平, 嵯峨山: "非同期遷移型HMMによる音声認識"電子情報通信学会論文誌 D-II. J86-D-II,4(掲載予定). (2003)