話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発

研究課題

研究課題/領域番号	16700171
研究種目	若手研究(B)
配分区分	補助金
研究分野	知覚情報処理・知能ロボティクス
研究機関	信州大学
研究代表者	山本一公信州大学, 工学部, 助手 (40324230)
研究期間 (年度)	2004 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	3,400千円 (直接経費: 3,400千円) 2005年度: 900千円 (直接経費: 900千円) 2004年度: 2,500千円 (直接経費: 2,500千円)
キーワード	音声認識 / 音響モデル / 話し言葉音声 / 発話速度変動 / マルチパスモデル / HMM / BNモデル / ROVER法 / 分析周期 / 隠れマルコフモデル / 発話速度 / ベイジアンネットワーク / 出力確率分布 / 遷移確率
研究概要	本研究は、話し言葉音声における発話速度変動に頑健な音声認識を目指し、話速変化による認識率低下の抑制について、大きく分けて 1.話速によるデータクラスタリングでの話速別モデルの構築。各話速別モデルを融合したモデル(HMM/BNモデル、マルチパスモデル)による各話速に対する評価。 2.分析周期を変更したデータによる局所話速に対応したモデルの構築。分析周期を変更した複数モデルの認識結果統合による認識率改善手法。の2つの手法により検討を行なった。データクラスタリング話速別モデルによる検討では以下のような結果を得た。 a.話速別モデルを用いることで話速に対応した認識精度が得られる。HMMパラメータの話速モデル化の調査では、話速別モデルのHMMパラメータのうち、特にガウス分布が話速変化をモデル化していることが分かった。 b.種々の話速別モデルの融合モデルの認識精度は各話速別モデルを単独で用いる場合の精度を上回っており、融合モデルによる効果は観られたが、ほぼ全話速に対して単純なHMMより劣る結果であった。話速別にデータを分割してしまうことによる学習データ量減少の問題が大きいと考えられる。分析周期変更モデルによる検討では以下のよう塗結果を得た。 a.分析周期を従来の半分としたモデルで、従来の分析周期のモデルと比べて、話速の速い場合において認識精度が改善できた。一方で、分析周期を短くすることにより、話速が遅い場合に挿入誤りを増加させる結果となり、話速の遅い場合においては精度が低下した。 b.分析周期が異なるモデルの認識結果を単語信頼度を利用したROVER法により統合することで単独システムの結果に比べトータルでの認識精度を改善することができた。

報告書

(2件)

2005 実績報告書
2004 実績報告書