研究概要 |
本年度は,下記の2点について検討を行った. 1)PHMMの自然発話音声認識への適用 複雑な特徴量の時間変化を音響モデルによって扱うことを目的としてPHMMを提案し,新聞読み上げ音声認識においてその有効性を確認してきた.このとき,PHMMにおける状態と出力間の相互依存構造を全ての音韻クラスで共通とする枠組みを採用し,構造最適化に対する予備的な知見を得てきた.本年度は,この枠組みを自然発話音声認識のタスクの一つである,講演音声認識に適用し評価を行うことにより,構造最適化に対する性能のベースラインを調べた.この結果,PHMMは,読み上げ音声認識のみならず講演音声認識においても,一般的な音響モデルであるHMMに対し良好な性能を与えることがわかった. 2)PHMMにおけるモデル構造の最適化に関する検討 PHMMは出力確率と遷移確率双方に前出力依存性を有した確率モデルであるが,これまでの枠組みでは,構造は全ての音韻クラスで共通なものを用いてきた.そこで本年度は,重みつき尤度比最大化基準に基づき,PHMMにおける状態と出力間の依存構造を,音韻クラス毎に最適に選択することを試みた.重みつき尤度比最大化基準は識別的な評価尺度であるため,この基準によって推定されたモデル構造は,結果として正解クラスと不正解クラスに対して高い識別能力を有する.ここでは,全てのカテゴリに対して取り得るモデル構造の組み合わせの中から,最大の重みつき尤度比を与える構造の組み合わせを最適なモデル構造と定義し探索の最適な近似として遺伝的アルゴリズムを適用した.学会講演音声を対象とした連続音声認識実験によって,提案するモデル構造選択手法の有効性を評価したところ,HMMや,構造を全てのカテゴリで共通としたPHMMの誤りを削減することがわかった.
|