対話の意味理解に基づく笑いの生成・説明

研究課題

研究課題/領域番号	23K16901
研究種目	若手研究
配分区分	基金
審査区分	小区分61010:知覚情報処理関連
研究機関	京都大学
研究代表者	井上昂治京都大学, 情報学研究科, 助教 (10838684)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円) 2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2024年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円) 2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	音声対話システム / 笑い / 対話理解 / 会話ロボット / ターンテイキング / 対話 / 意味理解 / 説明性
研究開始時の研究の概要	本研究は「会話ロボットは発話の意味を理解して笑うことができるか」という問いのもとに、適切なタイミングで適切な種類の笑いを表出することができる会話ロボットの実現を目指す。会話ロボットが適切に笑うためには、対話中の発話の意味を、その文脈も含めて高度に理解する必要がある。そこで、本研究ではまず、音声対話中の笑いの有無とその理由に関するデータセットを構築する。そして、対話の意味理解に基づく笑いの予測・説明モデルを構築する。その際に、大規模言語モデルを活用する。そして、構築したモデルを音声対話システムへ統合し、様々なロボットおよび対話場面において、会話ロボットが笑うことによる効果を検証する。
研究実績の概要	本年度は、対話の文脈に応じて自然な笑いを生成するモデルを構築するためのデータセットの構築に主に取り組んだ。これまでに収集されている日本語テキスト対話データセットを用いて、各発話に対してその後に対話相手が笑うことができるか否かをアノテーションした。その結果、900対話に対してアノテーションを完了することができた。また、上記と並行して、大規模言語モデルによる自動アノテーションも検討した。そして、人手によるアノテーションと大規模言語モデルによる自動アノテーションの結果の違いについても検討した。また、音声対話システムの基礎技術として、ターンテイキング技術の高度化や客観的評価の確立にも取り組んだ。ターンテイキング技術は、システムの円滑な発話開始に重要なものである。本研究では、最新のTransformerに基づくモデルを、日本語を含む多言語に対応させ、さらにリアルタイムで動作させることに成功した。このモデルには、Transformerの注意機構を対話参与者間で共有するものであり、今後、音声対話の基盤モデルとして進展していくことが期待される。音声対話システムの客観的評価については、複数の対話タスクを対象として、その主観評価と関係するユーザのふるまいを分析した。対象とした対話タスクは、傾聴、就職面接、初対面会話である。分析の結果、対話タスクに応じて異なるふるまいが、ユーザの主観評価と関係することが明らかになった。これにより、評価したい対話タスクの性質に応じて、評価の手がかりになり得るユーザのふるまいを定義することが可能になった。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究の核となるデータセットのアノテーションは順調に進行している。加えて、大規模言語モデルとの比較も検討が進んでおり、多面的な角度からの研究を遂行することができている。また、当初の計画にはなかったが、音声対話システムの基礎技術についても成果が出ており、全体的な統合など今後の展開が見込まれる。
今後の研究の推進方策	次年度は、データセットのアノテーションを進め、データ数を増加させる。そして、対話中の笑いを生成する機械学習モデルを構築し、大規模言語モデルと精度を比較する。音声による対話生成においては、本年度に構築したターンテイキングシステムにおけるTransformerモデルを拡張し、対話音声から直接生成するモデルの構築を試みる。

報告書

(1件)

2023 実施状況報告書

研究成果
(7件)

すべて 2024 2023

すべて雑誌論文 (1件) (うち国際共著 1件、査読あり 1件、オープンアクセス 1件) 学会発表 (6件) (うち国際学会 5件、招待講演 2件)

[雑誌論文] Towards Objective Evaluation of Socially-Situated Conversational Robots: Assessing Human-Likeness through Multimodal User Behaviors2023
- 著者名/発表者名
  Inoue Koji、Lala Divesh、Ochi Keiko、Kawahara Tatsuya、Skantze Gabriel
- 雑誌名
  
  Companion: Companion Publication of the 25th International Conference on Multimodal Interaction (ICMI 2023)
  
  巻: 1 ページ: 86-90
- DOI
  10.1145/3610661.3617151
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue Systems2024
- 著者名/発表者名
  Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze
- 学会等名
  International Workshop on Spoken Dialogue Systems Technology (IWSDS)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection2024
- 著者名/発表者名
  Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
- 学会等名
  International Workshop on Spoken Dialogue Systems Technology (IWSDS)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Multilingual Turn-taking Prediction Using Voice Activity Projection2024
- 著者名/発表者名
  Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
- 学会等名
  Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 音声対話の魅力：相槌・笑い・ターンテイキング2024
- 著者名/発表者名
  井上昂治
- 学会等名
  日本音響学会音声研究会, 電子情報通信学会 VNV研究会
- 関連する報告書
  2023 実施状況報告書
- 招待講演
[学会発表] Challenges and Approaches in Designing Social SDS in the LLM Era2023
- 著者名/発表者名
  Koji Inoue
- 学会等名
  Young Researchers Roundtable on Spoken Dialogue Systems (YRRSDS)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Closing the Gap: Exploring Human-Level Interaction in Android Robot Dialogue Systems2023
- 著者名/発表者名
  Koji Inoue
- 学会等名
  IEEE RO-MAN Workshop, Multidisciplinary Perspectives on COntext-aware embodied Spoken Interactions (MP-COSIN)
- 関連する報告書
  2023 実施状況報告書
- 国際学会 / 招待講演

対話の意味理解に基づく笑いの生成・説明

研究代表者

井上 昂治 京都大学, 情報学研究科, 助教 (10838684)

4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Towards Objective Evaluation of Socially-Situated Conversational Robots: Assessing Human-Likeness through Multimodal User Behaviors2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue Systems2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Multilingual Turn-taking Prediction Using Voice Activity Projection2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 音声対話の魅力：相槌・笑い・ターンテイキング2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Challenges and Approaches in Designing Social SDS in the LLM Era2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Closing the Gap: Exploring Human-Level Interaction in Android Robot Dialogue Systems2023

著者名/発表者名

学会等名

関連する報告書

井上昂治京都大学, 情報学研究科, 助教 (10838684)