話し言葉音声認識のための発話速度変動に頑健な音響モデルの開発

Research Project

Project/Area Number	16700171
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	Perception information processing/Intelligent robotics
Research Institution	Shinshu University
Principal Investigator	山本一公信州大学, 工学部, 助手 (40324230)
Project Period (FY)	2004 – 2005
Project Status	Completed (Fiscal Year 2005)
Budget Amount *help	¥3,400,000 (Direct Cost: ¥3,400,000) Fiscal Year 2005: ¥900,000 (Direct Cost: ¥900,000) Fiscal Year 2004: ¥2,500,000 (Direct Cost: ¥2,500,000)
Keywords	音声認識 / 音響モデル / 話し言葉音声 / 発話速度変動 / マルチパスモデル / HMM / BNモデル / ROVER法 / 分析周期 / 隠れマルコフモデル / 発話速度 / ベイジアンネットワーク / 出力確率分布 / 遷移確率
Research Abstract	本研究は、話し言葉音声における発話速度変動に頑健な音声認識を目指し、話速変化による認識率低下の抑制について、大きく分けて 1.話速によるデータクラスタリングでの話速別モデルの構築。各話速別モデルを融合したモデル(HMM/BNモデル、マルチパスモデル)による各話速に対する評価。 2.分析周期を変更したデータによる局所話速に対応したモデルの構築。分析周期を変更した複数モデルの認識結果統合による認識率改善手法。の2つの手法により検討を行なった。データクラスタリング話速別モデルによる検討では以下のような結果を得た。 a.話速別モデルを用いることで話速に対応した認識精度が得られる。HMMパラメータの話速モデル化の調査では、話速別モデルのHMMパラメータのうち、特にガウス分布が話速変化をモデル化していることが分かった。 b.種々の話速別モデルの融合モデルの認識精度は各話速別モデルを単独で用いる場合の精度を上回っており、融合モデルによる効果は観られたが、ほぼ全話速に対して単純なHMMより劣る結果であった。話速別にデータを分割してしまうことによる学習データ量減少の問題が大きいと考えられる。分析周期変更モデルによる検討では以下のよう塗結果を得た。 a.分析周期を従来の半分としたモデルで、従来の分析周期のモデルと比べて、話速の速い場合において認識精度が改善できた。一方で、分析周期を短くすることにより、話速が遅い場合に挿入誤りを増加させる結果となり、話速の遅い場合においては精度が低下した。 b.分析周期が異なるモデルの認識結果を単語信頼度を利用したROVER法により統合することで単独システムの結果に比べトータルでの認識精度を改善することができた。

Report

(2 results)

2005 Annual Research Report
2004 Annual Research Report