人間のコミュニケーション手段の一つである音声をコンピュータなどとのコミュニケーションに利用するためには音声インタフェースが必要となる。近年、音声インターフェースは、カーナビゲーションや携帯電話などに搭載されるようになり、我々の身近な存在となりつつある。しかし、利用者がそれらを積極的に使用しているとの話はほとんど聞かれず、未だ音声はコンピュータなどとのインタフェースとしては定着していない。この原因として、音声認識システムの誤認識が影響していると思われる。音声認識の誤認識は、必ずしもシステムだけの影響ではなく、利用者が音声インタフェースに対して熟練度が低いために生じる場合も存在すると考えられる。本研究では、『音声認識の誤認識要因の解明』及び『音声認識システム利用のための訓練方法の確立』に関し研究を進めた。 2015年度までにおいて、AndroidOSを用いた音声対話による地図案内システムを構築、雑音下音声認識評価基盤「CENSRECー1」を用いた誤認識要因の解明を行い、雑音により音声認識精度が劣化することを確認するとともに、特定の数字の特徴が雑音との特徴と類似していることを明確にした。また、実システムに対し、数名の特定話者が半年に渡り音声入力を行い、その誤り傾向を分析し誤認識要因の解明を試みた。誤認識要因の一つとして、話者が音声認識システムに精通しておらず、認識可能な語彙が把握していないことに起因する音声認識誤りが存在することを明確にした。また、正解系列とのマッチング部に改善の余地があることが解った。 さらに、最終年度においては現在までの知見を生かし、二足歩行ロボットに音声対話システムを構築することにより実施検証を行った。二足歩行ロボットに音声対話システムを搭載するにはロボットの持つ特有の制限により対話システムに制限がかかり、納得いくシステム作成には至らなかった。
|