2010 年度実績報告書

対話音声認識における環境や話し方の影響評定を備えた音声理解システムの研究

研究課題

研究課題/領域番号	21500165
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
研究分担者	小暮悟静岡大学, 情報学部, 講師 (40359758) 王龍標静岡大学, 工学部, 助教 (30510458)
キーワード	音声認識 / 発話様式・発話スタイル / 明瞭性 / 実環境 / ユーザインタフェース / ユーザビリティ / 性能予測
研究概要	当年度の研究計画の課題について以下の通り研究開発を行った. 1) 話し方や環境の違いに注目した認識性能の分析・推定モデルの改善前年度までの分析に用いていた読み上げ音声に加えて,新たに6通りの発話様式の違いを考慮して収録した音声データと,約30種類からなる車内環境での雑音・残響の影響を含む実環境データを用いて,話者や環境ごとの発話集合および話者適応モデルなどから特徴量抽出を行い,認識性能との相関分析や推定モデルの検討を行った.その結果として,発話様式や雑音レベルの違いに関係する母音間距離やSNRなどの特徴量と認識精度との相関関係がみられ,関連して雑音・残響などの環境の違いの影響には性差もみられることも分かった. 2) 推定モデルを用いた対話型インタフェースシステム構築上記の推定モデルに基づいて,それらの結果を直接的なフィードバックとして与える対話的インタフェースシステムの設計を進めた.これまでの知見をもとに,ユーザがコントロール可能な側面とそれ以外の環境に関わる側面とに分けてフィードバックを与える方法が有効と考え設計を進めた.このシステム開発に関連して,単語およびその部分の認識信頼度をもとに単語または部分のフィードバックを与えるユーザインタフェースの開発に取り組み,大語彙単語入力を効率化するユーザインタフェースシステムの実装を行った.

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] Multimodal Interface with N-best Display Including Candidates of Spoken Word Fragments2010
- 著者名/発表者名
  Yonggee Jang, Atsuhiko Kai, Longbiao Wang
- 学会等名
  2nd.APSIPA Annual Summit and Conference
- 発表場所
  Biopolis(シンガポール)
- 年月日
  2010-12-16