本研究では、発話に伴う、人間らしい自然な話し方と動作を持つ対話ロボット・エージェントの実現を目的とし、特に、対話相手や状況に応じて人はどのように表出を変えるのかを個人性も考慮したうえで表現できる「社会的表出」の数理モデルを明らかにし、それをロボットやエージェントとのインタラクションに実装することを目指して、多方面から研究開発を進めた。 対話ロボットが複数人と対話する場合の視線制御においては、対話役割と視線逸らしを考慮した手法を提案し、小型ロボットCommUおよびアンドロイドNIKOLAに視線動作を実装し、被験者実験による印象評定を行った。性格が異なる2名のモデルで生成した動作は、同じ声でも動きの違いにより、異なる外向性の印象を与えることが示された。 深層生成モデルによる上半身や手振りジェスチャ生成においては、入力音声から抽出される韻律特徴を条件とした手振りジェスチャを生成する深層学習モデルを学習し、手振りの動きを3段階に分けてモデルの入力の条件として付加することにより、生成された動きの印象を明示的に制御できるような枠組みを提案した。CGアバターおよび小型ロボットCommUにおいて生成された動作の印象を評価した結果、外向性の印象および興奮度合いの印象と相関した動作が生成できることが示された。 自然会話に出現する自発的な「楽しい笑い」と社会的な「愛想笑い」の音声特徴の分析も進めた。楽しい笑いには話者間で共通したパターンが観測された一方、愛想笑いには、強い気息音を含む、気息音を全く含まない、鼻音を含むなど、話者によって表出のバリエーションが多い傾向がみられた。笑いスタイルの個人差についても解析を進めた。 その他、マルチモーダル意図認識の研究も進めたが、これまでの研究成果を踏まえ、エージェントの社会的表出の実現に向けて、今後も取り組んでいく。
|