研究課題/領域番号 |
18J22864
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
知覚情報処理
|
研究機関 | 京都大学 |
研究代表者 |
稲熊 寛文 京都大学, 情報学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2018-04-25 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
2,200千円 (直接経費: 2,200千円)
2020年度: 700千円 (直接経費: 700千円)
2019年度: 700千円 (直接経費: 700千円)
2018年度: 800千円 (直接経費: 800千円)
|
キーワード | End-to-end音声認識 / ストリーミング音声認識 / End-to-end音声翻訳 / 非自己回帰モデル / 知識蒸留 / ストリーミングend-to-end音声認識 / end-to-end音声翻訳 / 音声認識 / Acoustic-to-word / End-to-End音声認識 / 言語モデル / 未知語問題 |
研究実績の概要 |
昨年度に引き続き,話者が発話を終了するのを待たずにリアルタイムで動作するオンラインストリーミング音声認識の研究に取り組んだ.Monotonic chunkwise attention (MoChA)というストリーミングEnd-to-end音声認識モデルが推論時に単語を出力するタイミングが実際に対応する音声が発せられたタイミングよりも遅延するという問題に着目した.このレイテンシを削減するため,connectionist temporal classification (CTC)というモデルから得られるアライメント情報を使ってレイテンシを削減する「CTC同期学習」という手法を提案した.その成果はInterspeech2020に採択され,さらにジャーナル論文としてまとめて投稿した. また,End-to-end音声翻訳のモデルの推論速度を高速化するため,非自己回帰型モデルの研究にも取り組んだ.精度は高いが推論速度が遅い自己回帰モデルと精度は低いが推論速度が速い非自己回帰型モデルの欠点を補完するため,後者から高速に得られる出力を前者でリスコアリングする手法を提案し,ICASSP2021に採択された.また2つのテキストベースの機械翻訳モデルを使ってソース言語とターゲット言語の両方から得られる知識を1つのend-to-end音声翻訳モデルに蒸留する手法を提案し,自然言語処理のトップカンファレンスであるNAACL-HLT2021に採択された.
|
現在までの達成度 (段落) |
令和2年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和2年度が最終年度であるため、記入しない。
|