昨年度に引き続き,話者が発話を終了するのを待たずにリアルタイムで動作するオンラインストリーミング音声認識の研究に取り組んだ.Monotonic chunkwise attention (MoChA)というストリーミングEnd-to-end音声認識モデルが推論時に単語を出力するタイミングが実際に対応する音声が発せられたタイミングよりも遅延するという問題に着目した.このレイテンシを削減するため,connectionist temporal classification (CTC)というモデルから得られるアライメント情報を使ってレイテンシを削減する「CTC同期学習」という手法を提案した.その成果はInterspeech2020に採択され,さらにジャーナル論文としてまとめて投稿した. また,End-to-end音声翻訳のモデルの推論速度を高速化するため,非自己回帰型モデルの研究にも取り組んだ.精度は高いが推論速度が遅い自己回帰モデルと精度は低いが推論速度が速い非自己回帰型モデルの欠点を補完するため,後者から高速に得られる出力を前者でリスコアリングする手法を提案し,ICASSP2021に採択された.また2つのテキストベースの機械翻訳モデルを使ってソース言語とターゲット言語の両方から得られる知識を1つのend-to-end音声翻訳モデルに蒸留する手法を提案し,自然言語処理のトップカンファレンスであるNAACL-HLT2021に採択された.
|