• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

End-to-End Model for Task-Independent Speech Understanding and Dialogue

Research Project

Project/Area Number 20H00602
Research InstitutionKyoto University

Principal Investigator

河原 達也  京都大学, 情報学研究科, 教授 (00234104)

Co-Investigator(Kenkyū-buntansha) 井上 昂治  京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳  京都大学, 情報学研究科, 准教授 (20510001)
Project Period (FY) 2020-04-01 – 2024-03-31
Keywords音声理解 / 音声対話 / 音声認識 / End-to-Endモデル
Outline of Annual Research Achievements

End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。
まず、音声から言語情報の認識(通常の音声認識)と感情情報の認識、及び話者情報の認識を行うシステムを設計・実装した。これらの属性は相補的な関係もある(例えば、言語情報や性別の情報により感情の認識も容易になる)反面、有用な特徴が直交する(例えば、音声認識は話者に独立な情報を抽出する)側面もある。近年注目を集めている自己教師付き学習に基づいて事前学習されたモデルをファインチューニングする枠組みにおいて、各々の属性について段階的にファインチューニングすることで、高精度な認識システムを構築することができた。感情認識の標準的なベンチマークで最高水準の性能を達成した。
次に、対話生成においては、大規模言語モデルに代表されるように、ユーザの入力発話からシステムの出力発話を直接End-to-Endに変換するモデルが主流となっているが、対話における意図や感情の推論は行われていない。これに対して、ユーザの意図と感情を推論するネットワークに加えて、システムの意図や感情をを推論する機構を導入した枠組みを提案した。これにより、より多様で共感的な応答が生成されることを示した。
また、音声強調(雑音抑圧)と音声認識のEnd-to-End処理系についても研究を行い、パワースペクトル次元の強調の情報を音声認識のエンコーダに渡すことにより、音声認識の頑健性・性能が向上することを示した。

Research Progress Status

令和5年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和5年度が最終年度であるため、記入しない。

  • Research Products

    (7 results)

All 2024 2023

All Journal Article (1 results) Presentation (6 results) (of which Int'l Joint Research: 6 results)

  • [Journal Article] 大規模事前学習モデルに基づく音声認識2023

    • Author(s)
      河原 達也、三村 正人
    • Journal Title

      日本音響学会誌

      Volume: 79 Pages: 455~460

    • DOI

      10.20697/jasj.79.9_455

  • [Presentation] Enhancing two-stage finetuning for speech emotion recognition using adapters.2024

    • Author(s)
      Y.Gao, H.Shi, C.Chu, and T.Kawahara.
    • Organizer
      IEEE-ICASSP
    • Int'l Joint Research
  • [Presentation] Reasoning before responding: Integrating commonsense-based causality explanation for empathetic response generation.2023

    • Author(s)
      Y.Fu, K.Inoue, C.Chu, and T.Kawahara.
    • Organizer
      SIGDIAL
    • Int'l Joint Research
  • [Presentation] Two-stage finetuning of wav2vec 2.0 for speech emotion recognition with ASR and gender pretraining.2023

    • Author(s)
      Y.Gao, C.Chu, and T.Kawahara.
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] Embedding articulatory constraints for low-resource speech recognition based on large pre-trained model.2023

    • Author(s)
      J.Lee, M.Mimura, and T.Kawahara.
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] Time-domain speech enhancement assisted by multi-resolution frequency encoder and decoder.2023

    • Author(s)
      H.Shi, M.Mimura, L.Wang, J.Dang, and T.Kawahara.
    • Organizer
      IEEE-ICASSP
    • Int'l Joint Research
  • [Presentation] Domain and language adaptation using heterogeneous datasets for wav2vec2.0-based speech recognition of low-resource language.2023

    • Author(s)
      K.Soky, S.Li, C.Chu, and T.Kawahara.
    • Organizer
      IEEE-ICASSP
    • Int'l Joint Research

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi