• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

階層的End-to-Endモデルに基づく音声対話における心的状態推定に関する研究

Research Project

Project/Area Number 18J22864
Research InstitutionKyoto University

Principal Investigator

稲熊 寛文  京都大学, 情報学研究科, 特別研究員(DC1)

Project Period (FY) 2018-04-25 – 2021-03-31
Keywords音声認識 / Acoustic-to-word / End-to-End音声認識 / 言語モデル / 未知語問題
Outline of Annual Research Achievements

近年,従来の複雑なモジュール分割が必要であったハイブリッド音声認識に迫る精度を達成しているEnd-to-End音声認識モデルを拡張し,単語単位で直接認識を行うAcoustic-to-Word (A2W)モデルで高い精度を達成した.A2Wモデルの問題点として,データスパースネス(各単語に割り当てられるデータ量が少ない)と未知語問題(語彙が限られているため認識できない単語が存在する)というものがある.前者は,文字レベルの認識タスクと同時にモデル全体を最適化するマルチタスク学習によって改善した.後者に関しては,単語レベルでの認識時に未知語が認識された場合に文字レベルの仮説を参照することで,事実上未知語問題を解決した.
一方で,A2Wモデルは語彙内の各単語に出力確率を割り当てるので,認識時に同音異義語などの音が似ている単語を誤って認識してしまうという問題がある.解決策として文らしさを表す確率を考慮する言語モデルの統合が考えられるが,言語モデルの語彙はA2Wモデルの語彙に制限されるので,単純に統合するだけでは従来のような大きな改善は見られなかった.そこでモデルの出力を分析したところ,言語モデルを統合することで,モデルが認識を誤りやすい低頻出語が未知語クラスにより多く割り当てられ,認識される未知語の数が増えるという現象を確認した.これらの増加した未知語を文字レベルの仮説で補完することで,英語音声会話コーパスおよび日本語音声認識コーパスにおいて認識精度の改善を確認した.これらは選択する語彙のサイズに非常に頑健であり,認識スピードもリアルタイムより速いことも示した.これらの研究成果は2018年12月にギリシャ・アテネで開催されたIEEE Workshop on Spoken Language Technology (SLT2018)で発表した.その他に,多言語音声認識・翻訳にも取り組んだ.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

当初の研究計画を大きく上回る成果をあげることができた.最初の1年で単語レベルの音声認識を達成しただけでなく,従来のモデルを認識精度・スピードで大きく上回り,実運用できるレベルにまで発展している.

Strategy for Future Research Activity

従来の音声認識では,認識される各文はそれぞれ独立に扱われ,その意味・内容は考慮されていなかった.
しかし,人間は文脈によって言葉を使い分け,文の意味を理解している.
これは特に同音異義語などで顕著である.
一方,単語レベルの音声認識の長所として,音声から直接単語レベルでの依存関係をモデル化できるという点が挙げられる.
そこで,この性質を利用し,文脈を考慮した音声認識技術の開発を目指す.

  • Research Products

    (7 results)

All 2019 2018 Other

All Int'l Joint Research (1 results) Presentation (6 results) (of which Int'l Joint Research: 6 results)

  • [Int'l Joint Research] Johns Hopkins University(米国)

    • Country Name
      U.S.A.
    • Counterpart Institution
      Johns Hopkins University
  • [Presentation] TRANSFER LEARNING OF LANGUAGE-INDEPENDENT END-TO-END ASR WITH LANGUAGE MODEL FUSION2019

    • Author(s)
      Hirofumi Inaguma
    • Organizer
      EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
    • Int'l Joint Research
  • [Presentation] LANGUAGE MODEL INTEGRATION BASED ON MEMORY CONTROL FOR SEQUENCE-TO-SEQUENCE SPEECH RECOGNITION2019

    • Author(s)
      Jaejin Cho
    • Organizer
      EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
    • Int'l Joint Research
  • [Presentation] IMPROVING OOV DETECTION AND RESOLUTION WITH EXTERNAL LANGUAGE MODELS IN ACOUSTIC-TO-WORD ASR2018

    • Author(s)
      Hirofumi Inaguma
    • Organizer
      IEEE Workshop on Spoken Language Technology (SLT2018)
    • Int'l Joint Research
  • [Presentation] LEVERAGING SEQUENCE-TO-SEQUENCE SPEECH SYNTHESIS FOR ENHANCING ACOUSTIC-TO-WORD SPEECH RECOGNITION2018

    • Author(s)
      Masato Mimura
    • Organizer
      IEEE Workshop on Spoken Language Technology (SLT2018)
    • Int'l Joint Research
  • [Presentation] AN END-TO-END APPROACH TO JOINT SOCIAL SIGNAL DETECTION AND AUTOMATIC SPEECH RECOGNITION2018

    • Author(s)
      Hirofumi Inaguma
    • Organizer
      EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)
    • Int'l Joint Research
  • [Presentation] ACOUSTIC-TO-WORD ATTENTION-BASED MODEL COMPLEMENTED WITH CHARACTER-LEVEL CTC-BASED MODEL2018

    • Author(s)
      Sei Ueno
    • Organizer
      EEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018)
    • Int'l Joint Research

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi