Project/Area Number |
18J22864
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Perceptual information processing
|
Research Institution | Kyoto University |
Principal Investigator |
稲熊 寛文 京都大学, 情報学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2018-04-25 – 2021-03-31
|
Project Status |
Completed (Fiscal Year 2020)
|
Budget Amount *help |
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2020: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2019: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000)
|
Keywords | End-to-end音声認識 / ストリーミング音声認識 / End-to-end音声翻訳 / 非自己回帰モデル / 知識蒸留 / ストリーミングend-to-end音声認識 / end-to-end音声翻訳 / 音声認識 / Acoustic-to-word / End-to-End音声認識 / 言語モデル / 未知語問題 |
Outline of Annual Research Achievements |
昨年度に引き続き,話者が発話を終了するのを待たずにリアルタイムで動作するオンラインストリーミング音声認識の研究に取り組んだ.Monotonic chunkwise attention (MoChA)というストリーミングEnd-to-end音声認識モデルが推論時に単語を出力するタイミングが実際に対応する音声が発せられたタイミングよりも遅延するという問題に着目した.このレイテンシを削減するため,connectionist temporal classification (CTC)というモデルから得られるアライメント情報を使ってレイテンシを削減する「CTC同期学習」という手法を提案した.その成果はInterspeech2020に採択され,さらにジャーナル論文としてまとめて投稿した. また,End-to-end音声翻訳のモデルの推論速度を高速化するため,非自己回帰型モデルの研究にも取り組んだ.精度は高いが推論速度が遅い自己回帰モデルと精度は低いが推論速度が速い非自己回帰型モデルの欠点を補完するため,後者から高速に得られる出力を前者でリスコアリングする手法を提案し,ICASSP2021に採択された.また2つのテキストベースの機械翻訳モデルを使ってソース言語とターゲット言語の両方から得られる知識を1つのend-to-end音声翻訳モデルに蒸留する手法を提案し,自然言語処理のトップカンファレンスであるNAACL-HLT2021に採択された.
|
Research Progress Status |
令和2年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和2年度が最終年度であるため、記入しない。
|