• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

End-to-End Model for Task-Independent Speech Understanding and Dialogue

Research Project

Project/Area Number 20H00602
Research InstitutionKyoto University

Principal Investigator

河原 達也  京都大学, 情報学研究科, 教授 (00234104)

Co-Investigator(Kenkyū-buntansha) 井上 昂治  京都大学, 情報学研究科, 助教 (10838684)
吉井 和佳  京都大学, 情報学研究科, 准教授 (20510001)
Project Period (FY) 2020-04-01 – 2024-03-31
Keywords音声理解 / 音声対話 / 音声認識 / End-to-Endモデル
Outline of Annual Research Achievements

人間どうしが行うような音声コミュニケーションにおいて、相手の意図・概念・感情を理解し、応答するためのモデルを研究した。
まず、音声から相手の発話行為(意図)を直接推定するEnd-to-Endモデルを構築した。これは、単語列(文)を再帰型ニューラルネットワークでエンコードして発話行為を推定するニューラルネットワークを、単語を出力単位とする音声認識のネットワークに直接結合し、統合学習することで実現した。本モデルが、音声認識誤りに頑健に機能し、従来手法に比べて高い精度を実現することを示した。
次に、音声から感情を直接推定するEnd-to-Endモデルを構築した。これは上記と同様に構成できるが、音声から単語列を介さずに直接感情を推定するモデルと並列に構成した。本モデルも、音声認識誤りに頑健に機能し、他の手法に比べて高い精度を実現することを示した。
さらに、対話において話題となる概念を抽出し、話題が整合するような応答を生成する機構をSeq-to-Seqモデルで実現した。文脈からBERTベースで話題語らしさを算出し、それが高い単語の埋め込み表現を応答生成の条件付けに利用するものである。本手法により生成される応答が、話題の整合性のとれた実質的なものであることを確認した。
また、ユーザの質問に直接回答できない場合にも、質問されている概念を推定した上で、それについてユーザに聞き返す応答を生成する機構もSeq-to-Seqモデルで実現した。
これらの基盤となるEnd-to-Endモデルに基づく音声認識についても、言語モデルの知識蒸留による高度化と効率的なストリーム型の実装について研究を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

各研究テーマにおいてメジャーな国際会議で論文発表することができた。

Strategy for Future Research Activity

ロボットによる音声対話システムに順次実装を行っていく。

  • Research Products

    (7 results)

All 2020

All Presentation (7 results) (of which Int'l Joint Research: 7 results)

  • [Presentation] Response generation to out-of-database questions for example-based dialogue systems.2020

    • Author(s)
      S.Isonishi, K.Inoue, D.Lala, K.Takanashi, and T.Kawahara.
    • Organizer
      Int'l Workshop Spoken Dialogue Systems (IWSDS)
    • Int'l Joint Research
  • [Presentation] End-to-end speech emotion recognition combined with acoustic-to-word ASR model.2020

    • Author(s)
      H.Feng, S.Ueno, and T.Kawahara.
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] End-to-end speech-to-dialog-act recognition.2020

    • Author(s)
      T.V.Dang, T.Zhao, S.Ueno, H.Inaguma, and T.Kawahara.
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] Topic-relevant response generation using optimal transport for an open-domain dialog system.2020

    • Author(s)
      S.Zhang, T.Zhao, and T.Kawahara.
    • Organizer
      COLING
    • Int'l Joint Research
  • [Presentation] Distilling the knowledge of BERT for sequence-to-sequence ASR.2020

    • Author(s)
      H.Futami, H.Inaguma, S.Ueno, M.Mimura, S.Sakai, and T.Kawahara.
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] CTC-synchronous training for monotonic attention model.2020

    • Author(s)
      H.Inaguma, M.Mimura, and T.Kawahara.
    • Organizer
      INTERSPEECH
    • Int'l Joint Research
  • [Presentation] Enhancing monotonic multihead attention for streaming ASR.2020

    • Author(s)
      H.Inaguma, M.Mimura, and T.Kawahara.
    • Organizer
      INTERSPEECH
    • Int'l Joint Research

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi