研究課題/領域番号 |
21500165
|
研究機関 | 静岡大学 |
研究代表者 |
甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)
|
研究分担者 |
小暮 悟 静岡大学, 情報学部, 講師 (40359758)
王 龍標 静岡大学, 工学部, 助教 (30510458)
|
キーワード | 音声認識 / 認識性能予測 / 話者性 / 明瞭性 / SNR / 認識信頼度 / 対話制御 |
研究概要 |
1)話し方や環境の違いに注目した認識性能の分析・推定モデルの改善 本年度は話者の違いに注目するため134名分の多数話者の単語発話データを用いた分析を行った。これによって、話者間の認識性能の変動要因から発話内容の違いによる影響を除外し、話し方や声質の違いによる認識性能への影響に焦点を当てた分析を行った。また、話者間での認識性能の違いに影響を与える要因として、個人が意図的にコントロール可能な発話様式の変動と、それ以外の話者固有の声質や環境の違いによる影響を区別するため、前者については明瞭性や発話速度、後者については母音構造の歪みや信号対雑音比(SNR)などの特徴量を自動抽出することによって分析を行った。多数の特徴量と認識性能との関係を分析するため重回帰分析をはじめ、ロジスティック回帰分析、ベイジアンネットワークの3種類の方法を用いて比較評価を行った。分析に用いた134名の話者別の連続音節認識の正解精度を認識性能の指標として、認識精度の高低のクラス判別として認識性能の予測精度を評価した。交差検証による評価実験の結果、本研究で用いた特徴量セットにおいては重回帰モデルによる方法が最も高い予測性能を得た。また、関連研究として人工的に生成した室内インパルス応答による人工残響環境での話者モデル化の有効性を確認し、より多様な環境要因の影響分析に今後使える可能性が示された。 2)認識性能予測を想定した対話制御方式の効果検証 音声認識システムを用いた対話的なインタフェースでは、ユーザ発話の認識結果の誤認識の可能性を考慮した応答内容の選択(対話制御)を行うアプローチの一つとして、認識信頼度を考慮する方法が一般的である。本研究では、そのような問題に対するアプローチの一つとして近年注目されているPOMDP(部分観測マルコフ決定過程)のモデルを採用し、認識性能の推定値を取り入れる方法の有効性を対話シミュレーションによって評価し、その有用性を示した。
|