2018 Fiscal Year Annual Research Report
Development of the responsive model for a virtual listener agent by using multimodal information
Project/Area Number |
16K00289
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
黄 宏軒 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (00572950)
|
Co-Investigator(Kenkyū-buntansha) |
林 勇吾 立命館大学, 総合心理学部, 准教授 (60437085)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 人工知能 / 会話エージェント / 高齢者支援 / コミュニケーション / 傾聴 |
Outline of Annual Research Achievements |
今年度は,昨年度から開発に関わっているFACSvatarを,以前から開発してきた会話エージェントのための汎用開発枠組みGeneric Embodied Conversational Agent (GECA) Frameworkへの組み込みを行った.さらに,エージェントの会話状況・環境認識や動作生成をより高精度かつ精緻なモデルで駆動できるように,深層学習の学習済みモデルをGECAで動作できるようにGECAの拡張を行った.具体的には,ネットワーク通信ライブラリZeroMQとPython言語をサポートした.次に,前年度に収集した傾聴会話実験収録した映像をデータコーパスとして整備した.これを基に,深層学習を利用して話し手の頭部動作,表情,視線,音声の韻律情報から,聴き手(エージェント)の頭部動作,表情,姿勢を生成する再帰型ニューラルネットワークモデルを構築した.エージェントの発話状態に応じて発話中と非発話の2つのモデルに分けて,10分割交差検証ではそれぞれ決定係数(R-square)0.5の精度を得られている.最後に,前項で構築した応答モデルを取り入れた,リアルタイムで動作する聴き手エージェントシステムを開発した.このシステムは,専用のスクリプト言語を用いて手作業で編集する応答シナリオ,外部サービスの雑談エンジン(NTTDocomo),そして,会話実験などで活用できる,エージェントの発話を直接操作するインタフェイスの3つの構成の間で簡単に切り替えることができるようになっている.
|