本研究は音声インターフェイスにおいて、対話のリズムと身体性が、ユーザの快適性や安全性にどれほどの影響を与えるか明らかにし、これらの要素を音声インターフェイスに導入するための新たな枠組みを提案することである。 昨年までこの目的のために対話リズムを考慮した音声対話システムの基本システムを構築した。これは人間同士の対話データから発話タイミングを機械学習し、ユーザの音響的特徴と言語的特徴から音声対話システムの発話タイミングを決定する方法で実現した。しかし、予備的な評価実験からユーザ満足度や発話のしやすさなどの向上は確認できたが、人間同士の対話に近い感覚を与えるまでには至らなかった。この原因を調査するために人間同士の対話データを収集し、発話タイミングや韻律的特徴を発話意図(発話内容)の違いにより分類・比較した結果、対話における話し手の発話タイミングは対話相手の発話特徴のみで決定できるわけではなく、話し手の発話意図(発話内容)や発話の重要度、感情などに大きく影響を受けることが示唆された。つまり、音声対話システムがリズミカルに発話するだけでは人間は機械に対して人間らしさ(安心感)を感じるわけではなく、発話意図(発話内容)や発話の重要度、感情なども考慮した適切なタイミングで発話することが人間らしさ(安心感)を感じさせるために重要である。また、聞き手も話し手の発話タイミングの変化やずれなどから発話内容に隠された意図や感情情報を理解していると考えられる。
|