階層的Ｅｎｄ－ｔｏ－Ｅｎｄモデルに基づく音声対話における心的状態推定に関する研究

研究課題

研究課題/領域番号	18J22864
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
研究分野	知覚情報処理
研究機関	京都大学
研究代表者	稲熊寛文京都大学, 情報学研究科, 特別研究員(DC1)
研究期間 (年度)	2018-04-25 – 2021-03-31
研究課題ステータス	完了 (2020年度)
配分額 *注記	2,200千円 (直接経費: 2,200千円) 2020年度: 700千円 (直接経費: 700千円) 2019年度: 700千円 (直接経費: 700千円) 2018年度: 800千円 (直接経費: 800千円)
キーワード	End-to-end音声認識 / ストリーミング音声認識 / End-to-end音声翻訳 / 非自己回帰モデル / 知識蒸留 / ストリーミングend-to-end音声認識 / end-to-end音声翻訳 / 音声認識 / Acoustic-to-word / End-to-End音声認識 / 言語モデル / 未知語問題
研究実績の概要	昨年度に引き続き，話者が発話を終了するのを待たずにリアルタイムで動作するオンラインストリーミング音声認識の研究に取り組んだ．Monotonic chunkwise attention (MoChA)というストリーミングEnd-to-end音声認識モデルが推論時に単語を出力するタイミングが実際に対応する音声が発せられたタイミングよりも遅延するという問題に着目した．このレイテンシを削減するため，connectionist temporal classification (CTC)というモデルから得られるアライメント情報を使ってレイテンシを削減する「CTC同期学習」という手法を提案した．その成果はInterspeech2020に採択され，さらにジャーナル論文としてまとめて投稿した．また，End-to-end音声翻訳のモデルの推論速度を高速化するため，非自己回帰型モデルの研究にも取り組んだ．精度は高いが推論速度が遅い自己回帰モデルと精度は低いが推論速度が速い非自己回帰型モデルの欠点を補完するため，後者から高速に得られる出力を前者でリスコアリングする手法を提案し，ICASSP2021に採択された．また2つのテキストベースの機械翻訳モデルを使ってソース言語とターゲット言語の両方から得られる知識を1つのend-to-end音声翻訳モデルに蒸留する手法を提案し，自然言語処理のトップカンファレンスであるNAACL-HLT2021に採択された．
現在までの達成度 (段落)	令和2年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和2年度が最終年度であるため、記入しない。

報告書

(3件)

研究成果
(26件)

すべて 2021 2020 2019 2018 その他

すべて国際共同研究 (1件) 学会発表 (24件) (うち国際学会 20件) 備考 (1件)

[国際共同研究] Johns Hopkins University(米国)
- 関連する報告書
  2018 実績報告書
[学会発表] Orthros: Non-autoregressive End-to-end Speech Translation with Dual-decoder2021
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021)
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Improved Mask-CTC for Non-Autoregressive End-to-End ASR2021
- 著者名/発表者名
  Yosuke Higuchi
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021)
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Recent Developments on ESPnet Toolkit Boosted by Conformer2021
- 著者名/発表者名
  Pengcheng Guo
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021)
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Source and Target Bidirectional Knowledge Distillation for End-to-end Speech Translation2021
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT 2021)
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] BERTによるSequence-to-Sequence音声認識への知識蒸留2021
- 著者名/発表者名
  二見颯
- 学会等名
  第246回自然言語処理・第134回音声言語情報処理合同研究発表会
- 関連する報告書
  2020 実績報告書
[学会発表] CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識2021
- 著者名/発表者名
  樋口陽祐
- 学会等名
  第246回自然言語処理・第134回音声言語情報処理合同研究発表会
- 関連する報告書
  2020 実績報告書
[学会発表] ELECTRA による音声認識仮説のリスコアリング2021
- 著者名/発表者名
  二見颯
- 学会等名
  日本音響学会2021年春季研究発表会
- 関連する報告書
  2020 実績報告書
[学会発表] MINIMUM LATENCY TRAINING STRATEGIES FOR STREAMING SEQUENCE-TO-SEQUENCE ASR2020
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)
- 関連する報告書
  2020 実績報告書 2019 実績報告書
- 国際学会
[学会発表] ESPnet-ST: All-in-One Speech Translation Toolkit2020
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  The 58th Annual Meeting of the Association for Computational Linguistics (ACL): System Demonstrations, 2020
- 関連する報告書
  2020 実績報告書 2019 実績報告書
- 国際学会
[学会発表] CTC-synchronous Training for Monotonic Attention Model2020
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  Interspeech 2020
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Enhancing Monotonic Multihead Atteniton for Streaming ASR2020
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  Interspeech 2020
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Distilling the Knowledge of BERT for Sequence-to-Sequence ASR2020
- 著者名/発表者名
  Hayato Futami
- 学会等名
  Interspeech 2020
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] End-to-end speech-to-dialog-act recognition2020
- 著者名/発表者名
  Tatusya Kawahara
- 学会等名
  Interspeech 2020
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] CTC同期学習による注意機構型ストリーミング音声認識の改善2020
- 著者名/発表者名
  稲熊寛文
- 学会等名
  日本音響学会2020年秋季研究発表会
- 関連する報告書
  2020 実績報告書
[学会発表] A Comparative Study on Transformer vs RNN in Speech Applications2020
- 著者名/発表者名
  Shigeki Karita
- 学会等名
  IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2019)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] TRANSFER LEARNING OF LANGUAGE-INDEPENDENT END-TO-END ASR WITH LANGUAGE MODEL FUSION2019
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] MULTILINGUAL END-TO-END SPEECH TRANSLATION2019
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2019)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] LANGUAGE MODEL INTEGRATION BASED ON MEMORY CONTROL FOR SEQUENCE TO SEQUENCE SPEECH RECOGNITION2019
- 著者名/発表者名
  Jaejin Cho
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] TRANSFER LEARNING OF LANGUAGE-INDEPENDENT END-TO-END ASR WITH LANGUAGE MODEL FUSION2019
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] LANGUAGE MODEL INTEGRATION BASED ON MEMORY CONTROL FOR SEQUENCE-TO-SEQUENCE SPEECH RECOGNITION2019
- 著者名/発表者名
  Jaejin Cho
- 学会等名
  EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] IMPROVING OOV DETECTION AND RESOLUTION WITH EXTERNAL LANGUAGE MODELS IN ACOUSTIC-TO-WORD ASR2018
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  IEEE Workshop on Spoken Language Technology (SLT2018)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] LEVERAGING SEQUENCE-TO-SEQUENCE SPEECH SYNTHESIS FOR ENHANCING ACOUSTIC-TO-WORD SPEECH RECOGNITION2018
- 著者名/発表者名
  Masato Mimura
- 学会等名
  IEEE Workshop on Spoken Language Technology (SLT2018)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] AN END-TO-END APPROACH TO JOINT SOCIAL SIGNAL DETECTION AND AUTOMATIC SPEECH RECOGNITION2018
- 著者名/発表者名
  Hirofumi Inaguma
- 学会等名
  EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] ACOUSTIC-TO-WORD ATTENTION-BASED MODEL COMPLEMENTED WITH CHARACTER-LEVEL CTC-BASED MODEL2018
- 著者名/発表者名
  Sei Ueno
- 学会等名
  EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)
- 関連する報告書
  2018 実績報告書
- 国際学会
[備考] 個人HP
- URL
  https://hirofumi0810.github.io/
- 関連する報告書
  2020 実績報告書

階層的Ｅｎｄ－ｔｏ－Ｅｎｄモデルに基づく音声対話における心的状態推定に関する研究

研究代表者

稲熊 寛文 京都大学, 情報学研究科, 特別研究員(DC1)

2,200千円 (直接経費: 2,200千円)

報告書

研究成果

[国際共同研究] Johns Hopkins University(米国)

関連する報告書

[学会発表] Orthros: Non-autoregressive End-to-end Speech Translation with Dual-decoder2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Improved Mask-CTC for Non-Autoregressive End-to-End ASR2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Recent Developments on ESPnet Toolkit Boosted by Conformer2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Source and Target Bidirectional Knowledge Distillation for End-to-end Speech Translation2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] BERTによるSequence-to-Sequence音声認識への知識蒸留2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] CTCとマスク推定に基づく推論速度の速いEnd-to-End音声認識2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] ELECTRA による音声認識仮説のリスコアリング2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] MINIMUM LATENCY TRAINING STRATEGIES FOR STREAMING SEQUENCE-TO-SEQUENCE ASR2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] ESPnet-ST: All-in-One Speech Translation Toolkit2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] CTC-synchronous Training for Monotonic Attention Model2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Enhancing Monotonic Multihead Atteniton for Streaming ASR2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Distilling the Knowledge of BERT for Sequence-to-Sequence ASR2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] End-to-end speech-to-dialog-act recognition2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] CTC同期学習による注意機構型ストリーミング音声認識の改善2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Comparative Study on Transformer vs RNN in Speech Applications2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] TRANSFER LEARNING OF LANGUAGE-INDEPENDENT END-TO-END ASR WITH LANGUAGE MODEL FUSION2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] MULTILINGUAL END-TO-END SPEECH TRANSLATION2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] LANGUAGE MODEL INTEGRATION BASED ON MEMORY CONTROL FOR SEQUENCE TO SEQUENCE SPEECH RECOGNITION2019

著者名/発表者名

学会等名

関連する報告書

稲熊寛文京都大学, 情報学研究科, 特別研究員(DC1)