研究概要 |
統計的音声認識や音声合成における音響モデルとして広く用いられている隠れマルコフモデル(HMM)の本質的限界としては,以下の3点がある。(1)状態内で統計量が一定であり,状態内での時間変化をモデル化できない。(2)観測ベクトル間の時間的独立性を仮定しており,時間的な依存関係を表現できない。(3)状態持続時間長確率分布が幾何分布であり,実際の音声の持続時間特性をモデル化できない。これらの問題は,HMMにおける仮定である,状態内での統計的定常性、観測ベクトル間の条件付無相関性、1次のマルコフ過程,に関するものである。HMMの取り扱いの容易さと実装可能性は,これらの仮定によっているものの,実際の音声ラメータ列では成り立たないものである。そこで,本年は,一つ目及びニつ目の問題を同時に解決可能な新しい統計モデリング手法であるトラジェクトリHMMを導入し,これを用いて音声認識、合成を行うための各種アルゴリズムを整備した。具体的には,モンテカルロEMに基づく学習アルゴリズム及び特徴量空間、モデル空間における線形変換を用いた話者適応アルゴリズムを導出した。また,これらのアルゴリズムを実際に音声認識に適用、評価し,国際会議等で発表した。三つ目の問題を解決できる隠れセミマルコフモデル学習のための各種ツールの整備を行い,最新の音声合成システムに組み込み,音声合成システムの国際的な評価会に参加し,優秀な成績を収めた。
|