研究概要 |
近年、音声認識をベースとしたインタフェースを備えた製品の実用化が進んでいる.音声インタフェースの特有の問題として,コンピュータと人間が音声を通じてコミュニケーションを図る場合,誤認識は避けられない点がある.また,現在はインタフェースが未熟であり,システムが自らの誤解に気づかないため,その誤認識・誤解からの回復が困難である. 一般に音声対話システムが誤認識した場合のユーザの反応として,(1)誤認識された部分を言い直す,(2)否定表現を用いる,という二つが主に挙げられる.したがって,それらを検出することにより誤認識からの回復が容易になると考えられる.これまでに我々は,言い直し判定を,現在のユーザ発話と直前のユーザ発話の間のDPマッチングや音声認識結果の重なり度,その組み合わせにより行う手法を提案してきた. そこで本研究では,否定表現の検出に注力した.否定表現の検出には,認識結果の事後確率と,単語終端におけるパワーの傾きに着目した方法を提案した.否定表現は発話中においてその直後にポーズを伴うことが多いため,パワーが減少する傾向にある.そこでパワーの傾きを特徴量として用いることで判定性能の向上が得た.また,言い直し検出および否定表現検出の両方を用いて訂正発話の検出を行った.その結果,再現率0.864,適合率0.955でシステムが自身の誤りを検出できることを確認した.この手法は実際の対話システムにも応用可能である.今後はこれを応用したシステムを構築し,フィールドテストを行う.
|