End-to-Endモデルに基づく汎用的な音声理解・対話

研究課題

研究課題/領域番号	20H00602
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分61:人間情報学およびその関連分野
研究機関	京都大学
研究代表者	河原達也京都大学, 情報学研究科, 教授 (00234104)
研究分担者	井上昂治京都大学, 情報学研究科, 助教 (10838684) 吉井和佳京都大学, 情報学研究科, 准教授 (20510001)
研究期間 (年度)	2020-04-01 – 2024-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	44,720千円 (直接経費: 34,400千円、間接経費: 10,320千円) 2023年度: 9,620千円 (直接経費: 7,400千円、間接経費: 2,220千円) 2022年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円) 2021年度: 12,220千円 (直接経費: 9,400千円、間接経費: 2,820千円) 2020年度: 10,660千円 (直接経費: 8,200千円、間接経費: 2,460千円)
キーワード	音声理解 / 音声対話 / 音声認識 / End-to-Endモデル
研究開始時の研究の概要	人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究する。音声から理解さらには相槌生成を行う系と、理解結果に応じて適切な知識・モデルを用いて応答生成を行う系のEnd-to-Endモデル化を行う。これにより、音声認識誤りの影響と音声に含まれるニュアンスや感情などの情報を考慮して、インタラクションを行うシステムを実現する。傾聴・カウンセリングや就職面接などを対象として、モデル化及び対話システムのロボットによる実装を行う。これにより、人間のコミュニケーションスキルの解明と実現を目指す。
研究実績の概要	End-to-Endモデルに基づく汎用的な音声理解・対話に関して、音声認識の高度化の観点と対話生成の観点から各々以下の研究を実施した。まず、人間どうしの自然な話し言葉音声から、フィラーや言い誤りの削除・句読点や脱落した助詞の挿入・口語的な表現の修正などの適宜必要な編集を行いながら、直接可読性の高い書き言葉スタイルの文を出力するEnd-to-Endモデルを設計・構築した。その際に、音声に忠実な書き起こしを疑似的に復元してEnd-to-Endモデルの学習を補助する手法と、句読点位置を手がかりとした音声区分化手法も併せて提案し、各々の効果を示した。衆議院審議音声を用いた評価実験により、提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に会議録テキストを生成できることを確認した。次に、ユーザの入力発話からシステムの応答を生成するEnd-to-End(Seq-to-Seq)モデルにおいて、感情認識を統合するとともに、応答から入力発話を復元するモデルも統合学習することで、文脈理解と感情認識を伴った応答生成の実現を図った。感情認識と検索型の応答を組み合わせることで、共感的な対話が実現できることを確認した。さらに、音声認識モデルにおける自己教師付き学習の導入についても検討し、音声認識と言語認識・ドメイン認識を同時にEnd-to-Endモデルで行い、かつ後者の認識結果を利用することで、音声認識の精度が改善されることを示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由音声認識・理解及び対話システムにおいて、多面的に研究を実施し、着実に成果を挙げることができた。
今後の研究の推進方策	要素技術をさらに発展させるとともに、システムとして統合していく。

報告書

(4件)

研究成果

(27件)

すべて 2023 2022 2021 2020

すべて雑誌論文 (4件) (うち査読あり 4件、オープンアクセス 4件) 学会発表 (21件) (うち国際学会 21件) 図書 (2件)

[雑誌論文] 国会会議録のための音声から書き言葉への end-to-end 変換2023
- 著者名/発表者名
  Mimura Masato、Kawahara Tatsuya
- 雑誌名
  
  自然言語処理
  
  巻: 30 号: 1 ページ: 88-124
- DOI
  10.5715/jnlp.30.88
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies2022
- 著者名/発表者名
  Soky Kak、Mimura Masato、Kawahara Tatsuya、Chu Chenhui、Li Sheng、Ding Chenchen、Sam Sethserey
- 雑誌名
  
  International Journal of Asian Language Processing
  
  巻: 31 号: 03n04 ページ: 1-21
- DOI
  10.1142/s2717554522500072
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Synthesizing waveform sequence-to-sequence to augment training data for sequence-to-sequence speech recognition2021
- 著者名/発表者名
  S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 42 号: 6 ページ: 333-343
- DOI
  10.1250/ast.42.333
- NAID
  130008110355
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 年月日
  2021-11-01
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Alignment knowledge distillation for online streaming attention-based speech recognition2021
- 著者名/発表者名
  H.Inaguma and T.Kawahara
- 雑誌名
  
  IEEE/ACM Trans. Audio, Speech & Language Process
  
  巻: Vol.29 ページ: 1-15
- DOI
  10.1109/taslp.2021.3133217
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[学会発表] Fusing multiple bandwidth spectrograms for improving speech enhancement.2022
- 著者名/発表者名
  H.Shi, Y.Shu, L.Wang, J.Dang, and T.Kawahara.
- 学会等名
  APSIPA ASC
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Subband-based spectrogram fusion for speech enhancement by combining mapping and masking approaches.2022
- 著者名/発表者名
  H.Shi, L.Wang, S.Li, J.Dang, and T.Kawahara.
- 学会等名
  APSIPA ASC
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Non-autoregressive error correction for CTC-based ASR with phone-conditioned masked LM.2022
- 著者名/発表者名
  H.Futami, H.Inaguma, S.Ueno, M.Mimura, S.Sakai, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] End-to-end speech-to-punctuated-text recognition.2022
- 著者名/発表者名
  J.Nozaki, T.Kawahara, K.Ishizuka, and T.Hashimoto.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Leveraging simultaneous translation for enhancing transcription of low-resource language via cross attention mechanism.2022
- 著者名/発表者名
  K.Soky, S.Li, M.Mimura, C.Chu, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Monaural speech enhancement based on spectrogram decomposition for convolutional neural network-sensitive feature extraction.2022
- 著者名/発表者名
  H.Shi, L.Wang, S.Li, J.Dang, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Selective multi-task learning for speech emotion recognition using corpora of different styles.2022
- 著者名/発表者名
  H.Zhang, M.Mimura, T.Kawahara, and K.Ishizuka.
- 学会等名
  IEEE-ICASSP
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Phone-informed refinement of synthesized mel spectrogram for data augmentation in speech recognition.2022
- 著者名/発表者名
  S.Ueno and T.Kawahara.
- 学会等名
  IEEE-ICASSP
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] An end-to-end model from speech to clean transcript for parliamentary meetings2021
- 著者名/発表者名
  M.Mimura, S.Sakai, and T.Kawahara
- 学会等名
  APSIPA ASC
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] ASR rescoring and confidence estimation with ELECTRA2021
- 著者名/発表者名
  H.Futami, H.Inaguma, M.Mimura, S.Sakai, and T.Kawahara
- 学会等名
  IEEE Workshop Automatic Speech Recognition & Understanding (ASRU)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Data augmentation for ASR using TTS via a discrete representation2021
- 著者名/発表者名
  S.Ueno, M.Mimura, S.Sakai, and T.Kawahara
- 学会等名
  IEEE Workshop Automatic Speech Recognition & Understanding (ASRU)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] VAD-free streaming hybrid CTC/Attention ASR for unsegmented recording2021
- 著者名/発表者名
  H.Inaguma, M.Mimura, and T.Kawahara
- 学会等名
  INTERSPEECH
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] StableEmit: Selection probability discount for reducing emission latency of streaming monotonic attention ASR2021
- 著者名/発表者名
  H.Inaguma, M.Mimura, and T.Kawahara
- 学会等名
  INTERSPEECH
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Multi-referenced training for dialogue response generation2021
- 著者名/発表者名
  T.Zhao and T.Kawahara
- 学会等名
  SIGdial Meeting Discourse & Dialogue
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Response generation to out-of-database questions for example-based dialogue systems.2020
- 著者名/発表者名
  S.Isonishi, K.Inoue, D.Lala, K.Takanashi, and T.Kawahara.
- 学会等名
  Int'l Workshop Spoken Dialogue Systems (IWSDS)
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] End-to-end speech emotion recognition combined with acoustic-to-word ASR model.2020
- 著者名/発表者名
  H.Feng, S.Ueno, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] End-to-end speech-to-dialog-act recognition.2020
- 著者名/発表者名
  T.V.Dang, T.Zhao, S.Ueno, H.Inaguma, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Topic-relevant response generation using optimal transport for an open-domain dialog system.2020
- 著者名/発表者名
  S.Zhang, T.Zhao, and T.Kawahara.
- 学会等名
  COLING
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Distilling the knowledge of BERT for sequence-to-sequence ASR.2020
- 著者名/発表者名
  H.Futami, H.Inaguma, S.Ueno, M.Mimura, S.Sakai, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] CTC-synchronous training for monotonic attention model.2020
- 著者名/発表者名
  H.Inaguma, M.Mimura, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Enhancing monotonic multihead attention for streaming ASR.2020
- 著者名/発表者名
  H.Inaguma, M.Mimura, and T.Kawahara.
- 学会等名
  INTERSPEECH
- 関連する報告書
  2020 実績報告書
- 国際学会
[図書] 音声（下）2022
- 著者名/発表者名
  日本音響学会、岩野公司、河原達也、篠田浩一、伊藤彰則、増村亮、小川哲司、駒谷和範
- 総ページ数
  208
- 出版者
  コロナ社
- ISBN
  9784339013672
- 関連する報告書
  2022 実績報告書
[図書] 音声対話システム2022
- 著者名/発表者名
  井上昂治、河原達也
- 総ページ数
  272
- 出版者
  オーム社
- ISBN
  9784274229541
- 関連する報告書
  2022 実績報告書

End-to-Endモデルに基づく汎用的な音声理解・対話

研究代表者

河原 達也 京都大学, 情報学研究科, 教授 (00234104)

44,720千円 (直接経費: 34,400千円、間接経費: 10,320千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 国会会議録のための音声から書き言葉への end-to-end 変換2023

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Synthesizing waveform sequence-to-sequence to augment training data for sequence-to-sequence speech recognition2021

著者名/発表者名

雑誌名

DOI

NAID

ISSN

年月日

関連する報告書

[雑誌論文] Alignment knowledge distillation for online streaming attention-based speech recognition2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Fusing multiple bandwidth spectrograms for improving speech enhancement.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Subband-based spectrogram fusion for speech enhancement by combining mapping and masking approaches.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Non-autoregressive error correction for CTC-based ASR with phone-conditioned masked LM.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] End-to-end speech-to-punctuated-text recognition.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Leveraging simultaneous translation for enhancing transcription of low-resource language via cross attention mechanism.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Monaural speech enhancement based on spectrogram decomposition for convolutional neural network-sensitive feature extraction.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Selective multi-task learning for speech emotion recognition using corpora of different styles.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Phone-informed refinement of synthesized mel spectrogram for data augmentation in speech recognition.2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] An end-to-end model from speech to clean transcript for parliamentary meetings2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] ASR rescoring and confidence estimation with ELECTRA2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Data augmentation for ASR using TTS via a discrete representation2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] VAD-free streaming hybrid CTC/Attention ASR for unsegmented recording2021

著者名/発表者名

学会等名

関連する報告書

河原達也京都大学, 情報学研究科, 教授 (00234104)