研究概要 |
人間と機械が対話を行うことを考えるとき,機械が人間同士の会話と同様にあいつちなどさまざまな応答を自然に返すことができれば,より円滑な対話を行うことが期待できる.本研究では,特に雑談のような対話に着目し,自然な雑談対話をする上で最も重要である応答タイミングと韻律的同調性の生成手法を提案した。さらにそれを用いて、種々の雑談的対話現象を生成できる対話システムの枠組みを提案し、それに基づく対話システムを試作した. まず、ユーザーシステム間の対話において、システムは時々刻々ユーザ発話の特徴から決定ルールを用いて相槌や話者交替の判断やそのタイミングを生成し、リアルタイムに応答する手法を実現した。これにより、オーバラップした相槌や話者交代、さらに相手の発話内容を予測してオーバラップして発話する「共同補完」などの、自然な対話で生起するさまざま雑談現象に対応できる手法となることを示した。タイミング生成や、発話内容の選択には、最後のユーザ発話の表層的言語情報及び韻律情報(ピッチやパワーの変化パターン)を情報源として用いた。 さらに、対話はスムーズで盛り上がった場合には対話者間の韻律、特に声の高さが同期して変動していることを、実際の人間同士の対話の分析により確かめた。そして、それをシステムで実現するために、ユーザの韻律に追従する韻律制御モデルを提案して、その挙動が人間の動作に似たものであることを示した。 この対話システムとの対話実験を行った結果、自然なタイミングでの相槌や話者交替、限定的な場面ではあるが同調発話を生成することが可能であることが示された。 このような対話インタフェースを実際の場面で効果的に用いるためのハンズフリー音声認識に関して、数メートル程度の離れた環境で話者位置を推定し、それに応じた伝達特性補正を加える位置依存CMN法を提案・改良し、音声認識・話者認識性能の向上を果たした。
|