2009 年度実績報告書

対話音声認識における環境や話し方の影響評定を備えた音声理解システムの研究

研究課題

研究課題/領域番号	21500165
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
研究分担者	小暮悟静岡大学, 情報学部, 助教 (40359758) 王龍標静岡大学, 工学部, 助教 (30510458)
キーワード	音声認識性能 / 発話様式・発話スタイル / 明瞭性 / 分布間距離 / 認識性能予測 / 音声理解性能 / 雑音下音声認識
研究概要	今年度は,研究の目的のうち話者や話し方の違いによる認識性能への影響を音響モデルの特徴の違いをもとに定量化すること,および雑音を含む場合の音声理解システム評価に焦点を当て,下記の成果を得た. 1)話者および話し方の違いに注目した認識性能の分析・推定モデル構築本年度は,全国の地名入力の音声対話タスクを想定して,普通に発話した音声と意図的に音声認識システムが誤認識した後の再入力を意識した2種類の話し方(発話スタイル)での7名の音声データを収録し,認識性能の分析・推定モデルの構築を進めた.認識性能の分析・推定のために用いた話者および発話スタイルの別での特徴量として,適応化した音響モデルと音声認識に用いた音響モデルのモデル間の分布間の距離のほか,認識結果から得られる尤度や発話スピードなどを抽出した.その実験結果の一部として,発話スタイルの違いによって話者間の認識性能の違いの予測に役立つ特徴量が異なること,異なる発話スタイルを含めて分析に用いることで発話スタイルの違いを含む認識性能予測の精度が改善されることが示された. 2)雑音の影響を含めた音声理解システムの基本性能評価既に収録されている音声理解システムの評価用音声データについて,人工的に異なるSN比で雑音を重畳した音声データを用意し,これまでに我々が開発している音声理解システムを用いて音声理解性能への影響を評価した.今年度は,2種類の雑音レベルの違いにおいて実験を行い,N-best候補出力の認識信頼度を用いた音声理解アルゴリズムとして典型的な2種類の方法を採用し,どの程度システムの音声認識・理解性能が得られるかを分析・評価した.

研究成果

(1件)

すべて学会発表 (1件)

[学会発表] Speech Interface for Isolated Words Based on Combination of Search Candidates from the Common Word Parts2009
- 著者名/発表者名
  Yonggee Jang
- 学会等名
  Western Pacific Acoustics Conference (WESPAC X 2009)
- 発表場所
  北京 (中国)
- 年月日
  2009-09-21