研究概要 |
今年度は,研究の目的のうち話者や話し方の違いによる認識性能への影響を音響モデルの特徴の違いをもとに定量化すること,および雑音を含む場合の音声理解システム評価に焦点を当て,下記の成果を得た. 1)話者および話し方の違いに注目した認識性能の分析・推定モデル構築 本年度は,全国の地名入力の音声対話タスクを想定して,普通に発話した音声と意図的に音声認識システムが誤認識した後の再入力を意識した2種類の話し方(発話スタイル)での7名の音声データを収録し,認識性能の分析・推定モデルの構築を進めた.認識性能の分析・推定のために用いた話者および発話スタイルの別での特徴量として,適応化した音響モデルと音声認識に用いた音響モデルのモデル間の分布間の距離のほか,認識結果から得られる尤度や発話スピードなどを抽出した.その実験結果の一部として,発話スタイルの違いによって話者間の認識性能の違いの予測に役立つ特徴量が異なること,異なる発話スタイルを含めて分析に用いることで発話スタイルの違いを含む認識性能予測の精度が改善されることが示された. 2)雑音の影響を含めた音声理解システムの基本性能評価 既に収録されている音声理解システムの評価用音声データについて,人工的に異なるSN比で雑音を重畳した音声データを用意し,これまでに我々が開発している音声理解システムを用いて音声理解性能への影響を評価した.今年度は,2種類の雑音レベルの違いにおいて実験を行い,N-best候補出力の認識信頼度を用いた音声理解アルゴリズムとして典型的な2種類の方法を採用し,どの程度システムの音声認識・理解性能が得られるかを分析・評価した.
|