会話中の視線,顔の向き,微妙な表情・仕草に着目して,相互に表出される仕草と発話交替,発話意図の時間発展を定量的に分析して,以下の成果をあげた. 前年度の成果である3名3組の女性による実空間,映像会話のシーン270分の収録データを用いて顔表情・仕草の書き起こしを継続した.次に,会話中の人の表情とその人の感情などの内部状態や意図を関連付けるため,「信念」「認知」「感情」などのコミュニケーション機能を果たすと考えられる34カテゴリ,具体的には,会話中に参与者から表出される内部状態(「考えている」「理解している」など),や意図(「伝えたい」「話したい」など)をPoggiらのMind marker(2004)を参考に用意した.このカテゴリに基づき,会話映像を使って,評定者が実際の参与者の仕草に上記カテゴリを付与,さらに言語内容,視線,頷き,表出のタイミングなどのシグナルを付与した.以上のデータを定量的,事例的に分析し,心的状態は時間発展の中でいくつかのシグナルの組合せで表現されること,話し手,聞き手の参与役割に応じてカテゴリの表出頻度に特徴があることを明らかにした.これらは会話エージェント,会話ロボットの表情動作生成,表情認識の設計に寄与する成果であると考える. さらに,ロボットと人の円滑な会話を実現するため,発話交替時に人が表出する「話したい」,「話さなければ」,「聞きたい」,「聞かなければならない」,「無表情」の態度を表情から認識するシステムを検討した.主成分分析,SVMを用いて表情画像から認識を行ったところ,入力データに対して63.5%の認識率を得た.これは人とロボットが会話を行うために,最低限必要な性能水準にあると考える.また,平均顔を可視化した結果,認識にとって口の変化が重要な特徴であることを示した. 「顔を科学する―適応と障害の脳科学―」を分担執筆し,成果に寄与した.
|