• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

対話音声認識における環境や話し方の影響評定を備えた音声理解システムの研究

Research Project

Project/Area Number 21500165
Research InstitutionShizuoka University

Principal Investigator

甲斐 充彦  静岡大学, 工学部, 准教授 (60283496)

Co-Investigator(Kenkyū-buntansha) 小暮 悟  静岡大学, 情報学部, 講師 (40359758)
王 龍標  静岡大学, 工学部, 助教 (30510458)
Keywords音声認識 / 発話様式・発話スタイル / 明瞭性 / 実環境 / ユーザインタフェース / ユーザビリティ / 性能予測
Research Abstract

当年度の研究計画の課題について以下の通り研究開発を行った.
1) 話し方や環境の違いに注目した認識性能の分析・推定モデルの改善
前年度までの分析に用いていた読み上げ音声に加えて,新たに6通りの発話様式の違いを考慮して収録した音声データと,約30種類からなる車内環境での雑音・残響の影響を含む実環境データを用いて,話者や環境ごとの発話集合および話者適応モデルなどから特徴量抽出を行い,認識性能との相関分析や推定モデルの検討を行った.その結果として,発話様式や雑音レベルの違いに関係する母音間距離やSNRなどの特徴量と認識精度との相関関係がみられ,関連して雑音・残響などの環境の違いの影響には性差もみられることも分かった.
2) 推定モデルを用いた対話型インタフェースシステム構築
上記の推定モデルに基づいて,それらの結果を直接的なフィードバックとして与える対話的インタフェースシステムの設計を進めた.これまでの知見をもとに,ユーザがコントロール可能な側面とそれ以外の環境に関わる側面とに分けてフィードバックを与える方法が有効と考え設計を進めた.このシステム開発に関連して,単語およびその部分の認識信頼度をもとに単語または部分のフィードバックを与えるユーザインタフェースの開発に取り組み,大語彙単語入力を効率化するユーザインタフェースシステムの実装を行った.

  • Research Products

    (1 results)

All 2010

All Presentation (1 results)

  • [Presentation] Multimodal Interface with N-best Display Including Candidates of Spoken Word Fragments2010

    • Author(s)
      Yonggee Jang, Atsuhiko Kai, Longbiao Wang
    • Organizer
      2nd.APSIPA Annual Summit and Conference
    • Place of Presentation
      Biopolis(シンガポール)
    • Year and Date
      2010-12-16

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi