最終年度は、これまでに構築してきたターンテイキングのデータセットを用いて、ターテイキングモデルを構築した。使用したデータセットは、初対面会話データにおいて、発話の「意図」と「内容」が理解可能か否かを各発話に対してアノテーションしたものである。「意図」はその発話の対話行為(dialog act)がその時点で理解することができるか否か、という判断基準を設けている。対話行為とは「質問」「回答」「言明」などのような発話の種類を表すものである。「内容」はその時点でその次の発話を生成することが可能か否かを判断基準とした。提案するターンテイキングのモデルは、はじめに「意図」または「内容」が理解可能かを判定し、その結果に基づいて発話権を取得するか否かを判定する2段階の予測を行う。従来の1段階のモデルに比べて、精度が向上することを確認している。今後は、モデルの構成を改善することを計画している。 また、音声対話システムの基礎的な機能として、同調笑いの生成についても取り組んだ。笑いの検出、同調笑いの予測、笑いの種類の選択という3つのモデルで構成されるシステムを提案し、同調笑いにより対話およびシステムへの印象が向上することを確認した。このシステムは音声対話システム上で実装され、リアルタイムに動作する。 本研究課題全体を通じて、ターンテイキングの新たなモデルの構築に取り組み、人間の認知処理により近いものを探索的に検討することができた。加えて、音声対話システムの基礎的な課題にも取り組み、多人数対話や同調笑いといった新たなモデルを提案することができた。
|