2008 Fiscal Year Annual Research Report
実環境を想定したオンラインによる音響モデルの構造化に基づく頑健な音声認識
Project/Area Number |
18700166
|
Research Institution | Chiba University |
Principal Investigator |
西田 昌史 Chiba University, 大学院・融合科学研究科, 助教 (80361442)
|
Keywords | 音声認識 / 話者適応 / クラスタリング / 音響モデル |
Research Abstract |
本研究では, 音響モデルを構造化することで頑健な音声認識を実現するために, 音響モデルの選択手法ならびにそれを踏まえた話者適応について検討を行った. 音声対話への適用を見据えてより自然発話に近い討論音声を対象として評価実験を行った.話者ごとにクラスタリングを行う場面を想定して, 従来の話者クラスタリング法でよく使用されているCross Likelihood Ratioと, 新たにKullback-Leibler距離をクラスタ間の距離として用いて比較実験を行った. 評価データには, 1回1時間ほどで話者が5〜8名ほど参加している討論音声を10セット用いた. 各クラスタの話者ごとに, 事前にクラスタリングされたデータベースから音響的に類似したクラスを先ほどのそれぞれの距離尺度に基づいて上位30個選択した. 選択されたクラスタの音声データをもとに, Maximum Likelihood Linear Regressionによる教師無し話者適応を行った. その結果, KL距離では57.3%, CLRでは57.7%の単語認識精度が得られ, ほぼ同等の認識精度であった. このことから, オンライン処理では, より計算コストが小さいKL距離によるクラスタリングが有効であることがわかった. さらに, 音響モデルのみならず言語モデルに関する構造化として, 音素, 単語, 文節単位といった異なる認識単位でモデル化した認識について, カーナビでの目的地を音声対話により検索する場面を想定して検討を行った. その結果, 文節のようなより長い認識単位でモデル化したほうが高い認識精度を得ることができた. しかしながら, 認識単位が長くなると部分的な信頼度を推定することが難しくなるため, 音素や単語といった短い単位での認識器を併用することで, 異なる認識単位の結果を統合して認識誤りを部分的に推定することができる可能性が明らかになった.
|
Research Products
(2 results)