• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2008 年度 実績報告書

ゆっくり喋ると認識されやすい音声認識システムの開発

研究課題

研究課題/領域番号 18700174
研究機関豊橋技術科学大学

研究代表者

山本 一公  豊橋技術科学大学, 工学部, 助教 (40324230)

キーワード音声認識 / 発話速度変動 / 挿入ペナルティ / 言語重み / 訂正発話 / 発話速度推定 / 対角共分散行列 / 全共分散行列
研究概要

現在の音声認識システムにおいて、誤認識は避けられない課題である。誤認識が起きた場合、人間であるユーザは、人間との対話において誤認識が起きた場合と同様に、ゆっくり再発話することで認識してもらおうと試みるが、現在の音声認識システムは学習データの平均的な発話速度から外れた発話速度の音声に対しては認識率が低下してしまう特性があるため、さらに誤認識が起きる悪循環となってしまっている。この問題に対処するために、本研究ではゆっくりと発話された音声の認識率を改善することを目的とした。ゆっくりした発話で多く見られる誤りは単語挿入誤りであるため、認識システムの挿入誤りを制御するパラメータである"挿入ペナルティ"を発話速度に応じて自動的に調整する手法を提案した。発話速度の推定は、音節制約付き連続音素認識結果から母音部分のみを抽出し、母音の平均継続長から算出した。挿入ペナルティは、発話速度が分かっている開発データに対して様々な挿入ペナルティで認識実験を行い、最も認識率が良くなる条件から回帰分析により推定式を求め、これを利用した。また、音響モデル尤度と言語モデル尤度のレンジの違いを補正するパラメータである"言語重み"についても、同様に自動的に調整した。発話速度をコントロールして読み上げた新聞記事に対する認識実験の結果、普通話速(7モーラ/秒)、速い話速(10モーラ/秒)の音声の認識精度を維持したまま、遅い話速(4モーラ/秒)の単語正解精度を、45.6%から76.3%へと大きく改善することができた。また、音声認識精度を上げる手法として、共分散行列のパラメータの効果的な使用方法について検討し、静的特徴と動的特徴の相関を利用することで、効果的に共分散行列のパラメータを削減する方法を開発した。

  • 研究成果

    (2件)

すべて 2009

すべて 学会発表 (2件)

  • [学会発表] 挿入ペナルティの自動推定による遅い発話に対する音声認識性能の改善2009

    • 著者名/発表者名
      荻山将成、山本一公、藤井康寿、中川聖一
    • 学会等名
      日本音響学会2009年春季研究発表会
    • 発表場所
      東京工業大学
    • 年月日
      2009-03-19
  • [学会発表] 音声認識における多次元ガウス分布の全共分散行列の要素制限手法2009

    • 著者名/発表者名
      末吉英一、山本一公、中川聖一
    • 学会等名
      日本音響学会2009年春季研究発表会
    • 発表場所
      東京工業大学
    • 年月日
      2009-03-17

URL: 

公開日: 2010-06-11   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi