• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2023 年度 実績報告書

End-to-Endモデルに基づく汎用的な音声理解・対話

研究課題

研究課題/領域番号 20H00602
研究機関京都大学

研究代表者

河原 達也  京都大学, 情報学研究科, 教授 (00234104)

研究分担者 井上 昂治  京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳  京都大学, 情報学研究科, 准教授 (20510001)
研究期間 (年度) 2020-04-01 – 2024-03-31
キーワード音声理解 / 音声対話 / 音声認識 / End-to-Endモデル
研究実績の概要

End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。
まず、音声から言語情報の認識(通常の音声認識)と感情情報の認識、及び話者情報の認識を行うシステムを設計・実装した。これらの属性は相補的な関係もある(例えば、言語情報や性別の情報により感情の認識も容易になる)反面、有用な特徴が直交する(例えば、音声認識は話者に独立な情報を抽出する)側面もある。近年注目を集めている自己教師付き学習に基づいて事前学習されたモデルをファインチューニングする枠組みにおいて、各々の属性について段階的にファインチューニングすることで、高精度な認識システムを構築することができた。感情認識の標準的なベンチマークで最高水準の性能を達成した。
次に、対話生成においては、大規模言語モデルに代表されるように、ユーザの入力発話からシステムの出力発話を直接End-to-Endに変換するモデルが主流となっているが、対話における意図や感情の推論は行われていない。これに対して、ユーザの意図と感情を推論するネットワークに加えて、システムの意図や感情をを推論する機構を導入した枠組みを提案した。これにより、より多様で共感的な応答が生成されることを示した。
また、音声強調(雑音抑圧)と音声認識のEnd-to-End処理系についても研究を行い、パワースペクトル次元の強調の情報を音声認識のエンコーダに渡すことにより、音声認識の頑健性・性能が向上することを示した。

現在までの達成度 (段落)

令和5年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和5年度が最終年度であるため、記入しない。

  • 研究成果

    (7件)

すべて 2024 2023

すべて 雑誌論文 (1件) 学会発表 (6件) (うち国際学会 6件)

  • [雑誌論文] 大規模事前学習モデルに基づく音声認識2023

    • 著者名/発表者名
      河原 達也、三村 正人
    • 雑誌名

      日本音響学会誌

      巻: 79 ページ: 455~460

    • DOI

      10.20697/jasj.79.9_455

  • [学会発表] Enhancing two-stage finetuning for speech emotion recognition using adapters.2024

    • 著者名/発表者名
      Y.Gao, H.Shi, C.Chu, and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 国際学会
  • [学会発表] Reasoning before responding: Integrating commonsense-based causality explanation for empathetic response generation.2023

    • 著者名/発表者名
      Y.Fu, K.Inoue, C.Chu, and T.Kawahara.
    • 学会等名
      SIGDIAL
    • 国際学会
  • [学会発表] Two-stage finetuning of wav2vec 2.0 for speech emotion recognition with ASR and gender pretraining.2023

    • 著者名/発表者名
      Y.Gao, C.Chu, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 国際学会
  • [学会発表] Embedding articulatory constraints for low-resource speech recognition based on large pre-trained model.2023

    • 著者名/発表者名
      J.Lee, M.Mimura, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 国際学会
  • [学会発表] Time-domain speech enhancement assisted by multi-resolution frequency encoder and decoder.2023

    • 著者名/発表者名
      H.Shi, M.Mimura, L.Wang, J.Dang, and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 国際学会
  • [学会発表] Domain and language adaptation using heterogeneous datasets for wav2vec2.0-based speech recognition of low-resource language.2023

    • 著者名/発表者名
      K.Soky, S.Li, C.Chu, and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 国際学会

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi