• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実績報告書

階層的End-to-Endモデルに基づく音声対話における心的状態推定に関する研究

研究課題

研究課題/領域番号 18J22864
研究機関京都大学

研究代表者

稲熊 寛文  京都大学, 情報学研究科, 特別研究員(DC1)

研究期間 (年度) 2018-04-25 – 2021-03-31
キーワードストリーミングend-to-end音声認識 / end-to-end音声翻訳
研究実績の概要

これまで,発話が終了してから認識を開始するオフライン認識において,入力音声からテキストを直接出力するend-to-end音声認識モデルは従来のハイブリッドシステムと同等またはそれ以上の精度を達成してきた.一方,発話終了前に認識を開始し入力音声を逐次認識するオンラインタスクにおいては,end-to-endモデルによりオフラインの場合に比べて遜色ない精度が達成されているものの,推論時にユーザが認知するレイテンシが非常に大きくなるという問題があった.これはend-to-endモデルの学習方法に起因するものである.そこで,認識精度を保ちつつレイテンシを削減するため,フレームレベルのアライメント情報を教師ラベルとして使用する手法を考案した.実験により,認識精度およびレイテンシが同時に改善されることを確認し,最小のレイテンシでオフラインモデルと遜色ない精度を達成した.その研究成果は音声処理のトップカンファレンスであるIEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)に口頭発表で採録された.

また,音声翻訳タスクにおいても,従来の音声認識と機械翻訳との組み合わせによるレイテンシの増加やエラーの伝搬などの問題を解決するため,end-to-endモデルが近年注目を集めているが,学習データが音声認識や機械翻訳タスクと比べて少ないという問題があった.これを解決するため,多言語対の音声データを利用し,翻訳精度が改善できることを実験的に示した.その成果はIEEE ASRU 2019に採録された.また,音声翻訳ツールキットのオープンソース化にも取り組み,その成果は自然言語処理のトップカンファレンスであるACL2020のSystem Demonstrationトラックに採録された.

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

当初の研究計画を大きく上回る成果をあげることができた.2019年7月から10月にかけて米国Microsoft Researchの夏季インターンシップんに参加し,様々な技術や研究方法を学んだ.日本に帰国後も,京都大学の講義音声認識に使用するストリーミング認識システムの開発に取り組み,実際にシステムに組み込めるレベルの認識精度を達成している.また,2019年11月に日本人で唯一Microsoft Research Asia Fellowship Award 2019を受賞した.

今後の研究の推進方策

ストリーミングend-to-end音声認識モデルへの談話コンテキストの統合を行う.ストリーミング認識が想定される講義や対話などにおいては,話の文脈やトピックや話者情報などのコンテキストにより認識精度が改善されることが示されてきた.しかし,これらはオフラインモデルに適用されており,ストリーミングend-to-end音声認識モデルへの適用方法は未だ確立されていない.また,談話コンテキストを使用することで,認識精度が改善されるだけでなく,一貫した認識結果が獲得できると期待される.

さらに,従来の同時音声翻訳における音声認識と機械翻訳モデル間のレイテンシを改善するため,ストリーミングend-to-end音声翻訳の研究に取り組む.これまで研究してきたストリーミングend-to-end音声認識モデルを拡張し,end-to-end音声認識とend-to-end音声翻訳を統合的な枠組みでモデル化することで,複数の言語でストリーミング認識・翻訳できる方法の確立を目指す.

  • 研究成果

    (6件)

すべて 2020 2019

すべて 学会発表 (6件) (うち国際学会 6件)

  • [学会発表] MINIMUM LATENCY TRAINING STRATEGIES FOR STREAMING SEQUENCE-TO-SEQUENCE ASR2020

    • 著者名/発表者名
      Hirofumi Inaguma
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)
    • 国際学会
  • [学会発表] ESPnet-ST: All-in-One Speech Translation Toolkit2020

    • 著者名/発表者名
      Hirofumi Inaguma
    • 学会等名
      The 58th Annual Meeting of the Association for Computational Linguistics (ACL): System Demonstrations, 2020
    • 国際学会
  • [学会発表] A Comparative Study on Transformer vs RNN in Speech Applications2020

    • 著者名/発表者名
      Shigeki Karita
    • 学会等名
      IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2019)
    • 国際学会
  • [学会発表] TRANSFER LEARNING OF LANGUAGE-INDEPENDENT END-TO-END ASR WITH LANGUAGE MODEL FUSION2019

    • 著者名/発表者名
      Hirofumi Inaguma
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
    • 国際学会
  • [学会発表] MULTILINGUAL END-TO-END SPEECH TRANSLATION2019

    • 著者名/発表者名
      Hirofumi Inaguma
    • 学会等名
      IEEE Automatic Speech Recognition and Understanding Workshop (ASRU 2019)
    • 国際学会
  • [学会発表] LANGUAGE MODEL INTEGRATION BASED ON MEMORY CONTROL FOR SEQUENCE TO SEQUENCE SPEECH RECOGNITION2019

    • 著者名/発表者名
      Jaejin Cho
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
    • 国際学会

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi