2019 Fiscal Year Annual Research Report
階層的End-to-Endモデルに基づく音声対話における心的状態推定に関する研究
Project/Area Number |
18J22864
|
Research Institution | Kyoto University |
Principal Investigator |
稲熊 寛文 京都大学, 情報学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2018-04-25 – 2021-03-31
|
Keywords | ストリーミングend-to-end音声認識 / end-to-end音声翻訳 |
Outline of Annual Research Achievements |
これまで,発話が終了してから認識を開始するオフライン認識において,入力音声からテキストを直接出力するend-to-end音声認識モデルは従来のハイブリッドシステムと同等またはそれ以上の精度を達成してきた.一方,発話終了前に認識を開始し入力音声を逐次認識するオンラインタスクにおいては,end-to-endモデルによりオフラインの場合に比べて遜色ない精度が達成されているものの,推論時にユーザが認知するレイテンシが非常に大きくなるという問題があった.これはend-to-endモデルの学習方法に起因するものである.そこで,認識精度を保ちつつレイテンシを削減するため,フレームレベルのアライメント情報を教師ラベルとして使用する手法を考案した.実験により,認識精度およびレイテンシが同時に改善されることを確認し,最小のレイテンシでオフラインモデルと遜色ない精度を達成した.その研究成果は音声処理のトップカンファレンスであるIEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)に口頭発表で採録された.
また,音声翻訳タスクにおいても,従来の音声認識と機械翻訳との組み合わせによるレイテンシの増加やエラーの伝搬などの問題を解決するため,end-to-endモデルが近年注目を集めているが,学習データが音声認識や機械翻訳タスクと比べて少ないという問題があった.これを解決するため,多言語対の音声データを利用し,翻訳精度が改善できることを実験的に示した.その成果はIEEE ASRU 2019に採録された.また,音声翻訳ツールキットのオープンソース化にも取り組み,その成果は自然言語処理のトップカンファレンスであるACL2020のSystem Demonstrationトラックに採録された.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の研究計画を大きく上回る成果をあげることができた.2019年7月から10月にかけて米国Microsoft Researchの夏季インターンシップんに参加し,様々な技術や研究方法を学んだ.日本に帰国後も,京都大学の講義音声認識に使用するストリーミング認識システムの開発に取り組み,実際にシステムに組み込めるレベルの認識精度を達成している.また,2019年11月に日本人で唯一Microsoft Research Asia Fellowship Award 2019を受賞した.
|
Strategy for Future Research Activity |
ストリーミングend-to-end音声認識モデルへの談話コンテキストの統合を行う.ストリーミング認識が想定される講義や対話などにおいては,話の文脈やトピックや話者情報などのコンテキストにより認識精度が改善されることが示されてきた.しかし,これらはオフラインモデルに適用されており,ストリーミングend-to-end音声認識モデルへの適用方法は未だ確立されていない.また,談話コンテキストを使用することで,認識精度が改善されるだけでなく,一貫した認識結果が獲得できると期待される.
さらに,従来の同時音声翻訳における音声認識と機械翻訳モデル間のレイテンシを改善するため,ストリーミングend-to-end音声翻訳の研究に取り組む.これまで研究してきたストリーミングend-to-end音声認識モデルを拡張し,end-to-end音声認識とend-to-end音声翻訳を統合的な枠組みでモデル化することで,複数の言語でストリーミング認識・翻訳できる方法の確立を目指す.
|