• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

A study on a response generation method based on simultaneous generation of speech and physical expression for conversational AI

Research Project

Project/Area Number 20K19903
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 61060:Kansei informatics-related
Research InstitutionNTT Communication Science Laboratories

Principal Investigator

Chiba Yuya  日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 研究員 (30780936)

Project Period (FY) 2020-04-01 – 2022-03-31
Project Status Completed (Fiscal Year 2021)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2020: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Keywords音声対話システム / マルチモーダル情報処理 / 応答生成 / 非言語情報
Outline of Research at the Start

現在利用されている対話システムの多くは音声に大きく依存したインラクションを行っており,会話の文脈に沿って感情や表情を適切に表出することができない.対話システムが社会的な存在となり,ユーザと関係を構築するためには声の調子や表情,ジェスチャを適切に制御することで,人間的なインタラクションを実現できる必要がある.本研究課題では,深層学習に基づく対話システムの応答生成手法を拡張し,発話内容と非言語情報を同時に生成する応答生成モデルを提案する.大規模なマルチモーダル雑談対話コーパスを用いて提案モデルを学習することで,発話内容だけでなく非言語情報に関しても文脈を考慮した応答が可能になると期待される.

Outline of Final Research Achievements

This study constructed a spoken response generation method using linguistic and prosodic information of the user's utterance based on the neural conversational model, which is actively studied for dialogue systems. Our experiments confirmed that the proposed method can produce F0 sequences that are closer to natural speech than the baseline. Then, our research group expanded the spoken response generation model to a multimodal response generation model, that can consider the facial expression control signals. Experimental results suggested that the performance of the model can be improved by considering multimodal information. Additionally, we also proposed a response timing estimation model based on the dialogue context encoder and the continuous LSTM. We have presented six papers at domestic conferences and workshops, four papers at international conferences, and applied for one patent.

Academic Significance and Societal Importance of the Research Achievements

本課題では,近年盛んに研究されているニューラルベースの応答生成技術が言語情報だけでなく韻律や表情といった非言語情報も扱えること,また人間のコミュニケーションにおける社会的な現象を考慮できる可能性があることを示した.加えて,そのような非言語ベースの応答生成において効果的にモデルを学習するためのデータ拡張手法,自然なタイミング・間での応答を実現する応答タイミング推定手法も提案し,それぞれ一定の効果が得られた.これらの検討より,非言語情報を取り入れた対話システムの応答生成研究における有益な知見を提供できたと考える.本研究の成果は今後ますます重要性を増す対話システムの自然性の向上に寄与するものである.

Report

(3 results)
  • 2021 Annual Research Report   Final Research Report ( PDF )
  • 2020 Research-status Report
  • Research Products

    (11 results)

All 2021 2020

All Presentation (10 results) (of which Int'l Joint Research: 4 results) Patent(Industrial Property Rights) (1 results)

  • [Presentation] Multimodal dialogue response timing estimation using dialogue context encoder2021

    • Author(s)
      Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito
    • Organizer
      International Workshop on Spoken Dialog System Technology
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Speaker intimacy in chat-talks: Analysis and recognition based on verbal and non-verbal information2021

    • Author(s)
      Yuya Chiba, Yoshihiro Yamazaki, Akinori Ito
    • Organizer
      Workshop on the Semantics and Pragmatics of Dialogue
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Neural spoken-response generation using prosodic and linguistic context for conversational systems2021

    • Author(s)
      Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito
    • Organizer
      Interspeech
    • Related Report
      2021 Annual Research Report
    • Int'l Joint Research
  • [Presentation] マルチモーダル情報に基づくシステム応答の韻律・表情制御信号の生成に関する検討2021

    • Author(s)
      渡辺稜哉,千葉祐弥,能勢隆,伊藤彰則
    • Organizer
      人工知能学会研究会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 言語・F0 特徴量系列を考慮したニューラル音声応答生成の検討2021

    • Author(s)
      山崎善啓,千葉祐弥,能勢隆,伊藤彰則
    • Organizer
      音響学会春季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] Filler Prediction Based on Bidirectional LSTM for Generation of Natural Response of Spoken Dialog2020

    • Author(s)
      Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito
    • Organizer
      IEEE 10th Global Conference on Consumer Electronics
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research
  • [Presentation] 雑談コーパスを用いた双方向LSTMに基づくフィラー予測の検討2020

    • Author(s)
      山崎善啓,千葉祐弥,能勢隆,伊藤彰則
    • Organizer
      音響学会秋季研究発表会
    • Related Report
      2020 Research-status Report
  • [Presentation] 言語・韻律情報の同時モデル化に基づく音声応答生成の検討2020

    • Author(s)
      山崎善啓,千葉祐弥,能勢隆,伊藤彰則
    • Organizer
      人工知能学会 言語・音声理解と対話処理研究会
    • Related Report
      2020 Research-status Report
  • [Presentation] 先行発話を利用したマルチモーダル応答タイミング推定2020

    • Author(s)
      矢作凌大,千葉祐弥,伊藤彰則
    • Organizer
      人工知能学会 言語・音声理解と対話処理研究会
    • Related Report
      2020 Research-status Report
  • [Presentation] 対話者間の親密さに基づく言語・非言語的対話行動の分析2020

    • Author(s)
      千葉祐弥,伊藤彰則
    • Organizer
      人工知能学会 言語・音声理解と対話処理研究会
    • Related Report
      2020 Research-status Report
  • [Patent(Industrial Property Rights)] 音声対話システムのための区分的韻律制御技術2021

    • Inventor(s)
      山崎善啓,能勢隆,伊藤彰則,千葉祐弥
    • Industrial Property Rights Holder
      山崎善啓,能勢隆,伊藤彰則,千葉祐弥
    • Industrial Property Rights Type
      特許
    • Filing Date
      2021
    • Related Report
      2021 Annual Research Report

URL: 

Published: 2020-04-28   Modified: 2023-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi