• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

Generation and xplanation of laughter based on dialogue semantic understanding

Research Project

Project/Area Number 23K16901
Research InstitutionKyoto University

Principal Investigator

井上 昂治  京都大学, 情報学研究科, 助教 (10838684)

Project Period (FY) 2023-04-01 – 2026-03-31
Keywords音声対話システム / 笑い / 対話理解 / 会話ロボット / ターンテイキング
Outline of Annual Research Achievements

本年度は、対話の文脈に応じて自然な笑いを生成するモデルを構築するためのデータセットの構築に主に取り組んだ。これまでに収集されている日本語テキスト対話データセットを用いて、各発話に対してその後に対話相手が笑うことができるか否かをアノテーションした。その結果、900対話に対してアノテーションを完了することができた。また、上記と並行して、大規模言語モデルによる自動アノテーションも検討した。そして、人手によるアノテーションと大規模言語モデルによる自動アノテーションの結果の違いについても検討した。
また、音声対話システムの基礎技術として、ターンテイキング技術の高度化や客観的評価の確立にも取り組んだ。ターンテイキング技術は、システムの円滑な発話開始に重要なものである。本研究では、最新のTransformerに基づくモデルを、日本語を含む多言語に対応させ、さらにリアルタイムで動作させることに成功した。このモデルには、Transformerの注意機構を対話参与者間で共有するものであり、今後、音声対話の基盤モデルとして進展していくことが期待される。音声対話システムの客観的評価については、複数の対話タスクを対象として、その主観評価と関係するユーザのふるまいを分析した。対象とした対話タスクは、傾聴、就職面接、初対面会話である。分析の結果、対話タスクに応じて異なるふるまいが、ユーザの主観評価と関係することが明らかになった。これにより、評価したい対話タスクの性質に応じて、評価の手がかりになり得るユーザのふるまいを定義することが可能になった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本研究の核となるデータセットのアノテーションは順調に進行している。加えて、大規模言語モデルとの比較も検討が進んでおり、多面的な角度からの研究を遂行することができている。また、当初の計画にはなかったが、音声対話システムの基礎技術についても成果が出ており、全体的な統合など今後の展開が見込まれる。

Strategy for Future Research Activity

次年度は、データセットのアノテーションを進め、データ数を増加させる。そして、対話中の笑いを生成する機械学習モデルを構築し、大規模言語モデルと精度を比較する。音声による対話生成においては、本年度に構築したターンテイキングシステムにおけるTransformerモデルを拡張し、対話音声から直接生成するモデルの構築を試みる。

Causes of Carryover

当初想定したデータ数よりも多くの対話データが得られ、追加のアノテーションが必要となったため。次年度は今年度の成果をもとにより多くのアノテーションを実施する。

  • Research Products

    (7 results)

All 2024 2023

All Journal Article (1 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (6 results) (of which Int'l Joint Research: 5 results,  Invited: 2 results)

  • [Journal Article] Towards Objective Evaluation of Socially-Situated Conversational Robots: Assessing Human-Likeness through Multimodal User Behaviors2023

    • Author(s)
      Inoue Koji、Lala Divesh、Ochi Keiko、Kawahara Tatsuya、Skantze Gabriel
    • Journal Title

      Companion: Companion Publication of the 25th International Conference on Multimodal Interaction (ICMI 2023)

      Volume: 1 Pages: 86-90

    • DOI

      10.1145/3610661.3617151

    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] An Analysis of User Behaviors for Objectively Evaluating Spoken Dialogue Systems2024

    • Author(s)
      Koji Inoue, Divesh Lala, Keiko Ochi, Tatsuya Kawahara, Gabriel Skantze
    • Organizer
      International Workshop on Spoken Dialogue Systems Technology (IWSDS)
    • Int'l Joint Research
  • [Presentation] Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection2024

    • Author(s)
      Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
    • Organizer
      International Workshop on Spoken Dialogue Systems Technology (IWSDS)
    • Int'l Joint Research
  • [Presentation] Multilingual Turn-taking Prediction Using Voice Activity Projection2024

    • Author(s)
      Koji Inoue, Bing'er Jiang, Erik Ekstedt, Tatsuya Kawahara, Gabriel Skantze
    • Organizer
      Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING)
    • Int'l Joint Research
  • [Presentation] 音声対話の魅力:相槌・笑い・ターンテイキング2024

    • Author(s)
      井上 昂治
    • Organizer
      日本音響学会 音声研究会, 電子情報通信学会 VNV研究会
    • Invited
  • [Presentation] Challenges and Approaches in Designing Social SDS in the LLM Era2023

    • Author(s)
      Koji Inoue
    • Organizer
      Young Researchers Roundtable on Spoken Dialogue Systems (YRRSDS)
    • Int'l Joint Research
  • [Presentation] Closing the Gap: Exploring Human-Level Interaction in Android Robot Dialogue Systems2023

    • Author(s)
      Koji Inoue
    • Organizer
      IEEE RO-MAN Workshop, Multidisciplinary Perspectives on COntext-aware embodied Spoken Interactions (MP-COSIN)
    • Int'l Joint Research / Invited

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi