• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

End-to-Endモデルに基づく汎用的な音声理解・対話

研究課題

研究課題/領域番号 20H00602
研究種目

基盤研究(A)

配分区分補助金
応募区分一般
審査区分 中区分61:人間情報学およびその関連分野
研究機関京都大学

研究代表者

河原 達也  京都大学, 情報学研究科, 教授 (00234104)

研究分担者 井上 昂治  京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳  京都大学, 情報学研究科, 准教授 (20510001)
研究期間 (年度) 2020-04-01 – 2024-03-31
研究課題ステータス 完了 (2023年度)
配分額 *注記
44,720千円 (直接経費: 34,400千円、間接経費: 10,320千円)
2023年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円)
2022年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2021年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円)
2020年度: 10,660千円 (直接経費: 8,200千円、間接経費: 2,460千円)
キーワード音声理解 / 音声対話 / 音声認識 / End-to-Endモデル
研究開始時の研究の概要

人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究する。音声から理解さらには相槌生成を行う系と、理解結果に応じて適切な知識・モデルを用いて応答生成を行う系のEnd-to-Endモデル化を行う。これにより、音声認識誤りの影響と音声に含まれるニュアンスや感情などの情報を考慮して、インタラクションを行うシステムを実現する。傾聴・カウンセリングや就職面接などを対象として、モデル化及び対話システムのロボットによる実装を行う。これにより、人間のコミュニケーションスキルの解明と実現を目指す。

研究成果の概要

End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の高度化の観点から、様々な研究を実施した。まず、音声から発話行為や感情を直接認識するEnd-to-End処理系を設計・実装した。次に、少資源言語の音声認識のために、話者認識や言語認識・ドメイン認識を統合し、効果的に学習を行う方法を提案した。また、音声から句読点付きテキストや整形テキストを直接生成するモデルも構築した。さらに、感情認識と音声認識・性別認識を統合し、効果的に学習を方法を研究した。対話生成についても、ユーザの意図や感情に加えて、システムの意図や感情を推論する機構を提案した。

研究成果の学術的意義や社会的意義

音声認識はend-to-endモデルを大規模なデータで学習することで、大きな性能の向上を実現したが、少資源言語の音声認識や感情認識の性能はまだ十分でない。これに対して、様々な音声の属性を統合することで、大きな改善が得られることを示した。
対話生成においても大規模言語モデルが隆盛を極めているが、ロボットなどに実装する際には意図や感情などの内部状態のモデルを構築・学習することで、共感的・共生的なシステムの実現につながることが期待される。

報告書

(6件)
  • 2023 実績報告書   研究成果報告書 ( PDF )
  • 2022 実績報告書
  • 2021 実績報告書
  • 2020 審査結果の所見   実績報告書
  • 研究成果

    (34件)

すべて 2024 2023 2022 2021 2020

すべて 雑誌論文 (5件) (うち査読あり 4件、 オープンアクセス 4件) 学会発表 (27件) (うち国際学会 27件) 図書 (2件)

  • [雑誌論文] 大規模事前学習モデルに基づく音声認識2023

    • 著者名/発表者名
      河原 達也、三村 正人
    • 雑誌名

      日本音響学会誌

      巻: 79 号: 9 ページ: 455-460

    • DOI

      10.20697/jasj.79.9_455

    • ISSN
      0369-4232, 2432-2040
    • 年月日
      2023-09-01
    • 関連する報告書
      2023 実績報告書
  • [雑誌論文] 国会会議録のための音声から書き言葉への end-to-end 変換2023

    • 著者名/発表者名
      Mimura Masato、Kawahara Tatsuya
    • 雑誌名

      自然言語処理

      巻: 30 号: 1 ページ: 88-124

    • DOI

      10.5715/jnlp.30.88

    • ISSN
      1340-7619, 2185-8314
    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies2022

    • 著者名/発表者名
      Soky Kak、Mimura Masato、Kawahara Tatsuya、Chu Chenhui、Li Sheng、Ding Chenchen、Sam Sethserey
    • 雑誌名

      International Journal of Asian Language Processing

      巻: 31 号: 03n04 ページ: 1-21

    • DOI

      10.1142/s2717554522500072

    • 関連する報告書
      2022 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Synthesizing waveform sequence-to-sequence to augment training data for sequence-to-sequence speech recognition2021

    • 著者名/発表者名
      S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
    • 雑誌名

      Acoustical Science and Technology

      巻: 42 号: 6 ページ: 333-343

    • DOI

      10.1250/ast.42.333

    • NAID

      130008110355

    • ISSN
      0369-4232, 1346-3969, 1347-5177
    • 年月日
      2021-11-01
    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Alignment knowledge distillation for online streaming attention-based speech recognition2021

    • 著者名/発表者名
      H.Inaguma and T.Kawahara
    • 雑誌名

      IEEE/ACM Trans. Audio, Speech & Language Process

      巻: Vol.29 ページ: 1-15

    • DOI

      10.1109/taslp.2021.3133217

    • 関連する報告書
      2021 実績報告書
    • 査読あり / オープンアクセス
  • [学会発表] Enhancing two-stage finetuning for speech emotion recognition using adapters.2024

    • 著者名/発表者名
      Y.Gao, H.Shi, C.Chu, and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Reasoning before responding: Integrating commonsense-based causality explanation for empathetic response generation.2023

    • 著者名/発表者名
      Y.Fu, K.Inoue, C.Chu, and T.Kawahara.
    • 学会等名
      SIGDIAL
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Two-stage finetuning of wav2vec 2.0 for speech emotion recognition with ASR and gender pretraining.2023

    • 著者名/発表者名
      Y.Gao, C.Chu, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Embedding articulatory constraints for low-resource speech recognition based on large pre-trained model.2023

    • 著者名/発表者名
      J.Lee, M.Mimura, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Time-domain speech enhancement assisted by multi-resolution frequency encoder and decoder.2023

    • 著者名/発表者名
      H.Shi, M.Mimura, L.Wang, J.Dang, and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Domain and language adaptation using heterogeneous datasets for wav2vec2.0-based speech recognition of low-resource language.2023

    • 著者名/発表者名
      K.Soky, S.Li, C.Chu, and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 関連する報告書
      2023 実績報告書
    • 国際学会
  • [学会発表] Fusing multiple bandwidth spectrograms for improving speech enhancement.2022

    • 著者名/発表者名
      H.Shi, Y.Shu, L.Wang, J.Dang, and T.Kawahara.
    • 学会等名
      APSIPA ASC
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Subband-based spectrogram fusion for speech enhancement by combining mapping and masking approaches.2022

    • 著者名/発表者名
      H.Shi, L.Wang, S.Li, J.Dang, and T.Kawahara.
    • 学会等名
      APSIPA ASC
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Non-autoregressive error correction for CTC-based ASR with phone-conditioned masked LM.2022

    • 著者名/発表者名
      H.Futami, H.Inaguma, S.Ueno, M.Mimura, S.Sakai, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] End-to-end speech-to-punctuated-text recognition.2022

    • 著者名/発表者名
      J.Nozaki, T.Kawahara, K.Ishizuka, and T.Hashimoto.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Leveraging simultaneous translation for enhancing transcription of low-resource language via cross attention mechanism.2022

    • 著者名/発表者名
      K.Soky, S.Li, M.Mimura, C.Chu, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Monaural speech enhancement based on spectrogram decomposition for convolutional neural network-sensitive feature extraction.2022

    • 著者名/発表者名
      H.Shi, L.Wang, S.Li, J.Dang, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Selective multi-task learning for speech emotion recognition using corpora of different styles.2022

    • 著者名/発表者名
      H.Zhang, M.Mimura, T.Kawahara, and K.Ishizuka.
    • 学会等名
      IEEE-ICASSP
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Phone-informed refinement of synthesized mel spectrogram for data augmentation in speech recognition.2022

    • 著者名/発表者名
      S.Ueno and T.Kawahara.
    • 学会等名
      IEEE-ICASSP
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] An end-to-end model from speech to clean transcript for parliamentary meetings2021

    • 著者名/発表者名
      M.Mimura, S.Sakai, and T.Kawahara
    • 学会等名
      APSIPA ASC
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] ASR rescoring and confidence estimation with ELECTRA2021

    • 著者名/発表者名
      H.Futami, H.Inaguma, M.Mimura, S.Sakai, and T.Kawahara
    • 学会等名
      IEEE Workshop Automatic Speech Recognition & Understanding (ASRU)
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] Data augmentation for ASR using TTS via a discrete representation2021

    • 著者名/発表者名
      S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
    • 学会等名
      IEEE Workshop Automatic Speech Recognition & Understanding (ASRU)
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] VAD-free streaming hybrid CTC/Attention ASR for unsegmented recording2021

    • 著者名/発表者名
      H.Inaguma, M.Mimura, and T.Kawahara
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] StableEmit: Selection probability discount for reducing emission latency of streaming monotonic attention ASR2021

    • 著者名/発表者名
      H.Inaguma, M.Mimura, and T.Kawahara
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] Multi-referenced training for dialogue response generation2021

    • 著者名/発表者名
      T.Zhao and T.Kawahara
    • 学会等名
      SIGdial Meeting Discourse & Dialogue
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] Response generation to out-of-database questions for example-based dialogue systems.2020

    • 著者名/発表者名
      S.Isonishi, K.Inoue, D.Lala, K.Takanashi, and T.Kawahara.
    • 学会等名
      Int'l Workshop Spoken Dialogue Systems (IWSDS)
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] End-to-end speech emotion recognition combined with acoustic-to-word ASR model.2020

    • 著者名/発表者名
      H.Feng, S.Ueno, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] End-to-end speech-to-dialog-act recognition.2020

    • 著者名/発表者名
      T.V.Dang, T.Zhao, S.Ueno, H.Inaguma, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Topic-relevant response generation using optimal transport for an open-domain dialog system.2020

    • 著者名/発表者名
      S.Zhang, T.Zhao, and T.Kawahara.
    • 学会等名
      COLING
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Distilling the knowledge of BERT for sequence-to-sequence ASR.2020

    • 著者名/発表者名
      H.Futami, H.Inaguma, S.Ueno, M.Mimura, S.Sakai, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] CTC-synchronous training for monotonic attention model.2020

    • 著者名/発表者名
      H.Inaguma, M.Mimura, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Enhancing monotonic multihead attention for streaming ASR.2020

    • 著者名/発表者名
      H.Inaguma, M.Mimura, and T.Kawahara.
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [図書] 音声(下)2022

    • 著者名/発表者名
      日本音響学会、岩野 公司、河原 達也、篠田 浩一、伊藤 彰則、増村 亮、小川 哲司、駒谷 和範
    • 総ページ数
      208
    • 出版者
      コロナ社
    • ISBN
      9784339013672
    • 関連する報告書
      2022 実績報告書
  • [図書] 音声対話システム2022

    • 著者名/発表者名
      井上 昂治、河原 達也
    • 総ページ数
      272
    • 出版者
      オーム社
    • ISBN
      9784274229541
    • 関連する報告書
      2022 実績報告書

URL: 

公開日: 2020-04-28   更新日: 2025-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi