研究課題/領域番号 |
21J23495
|
配分区分 | 補助金 |
研究機関 | 早稲田大学 |
研究代表者 |
樋口 陽祐 早稲田大学, 理工学術院, 特別研究員(DC1)
|
研究期間 (年度) |
2021-04-28 – 2024-03-31
|
キーワード | 音声認識 |
研究実績の概要 |
音声を介した実用的なインターフェースの実現に向け、推論速度が速く高精度な音声認識技術の開発を目指す。本研究課題では、End-to-End音声認識の非自己回帰的なモデリングに着目し、自己回帰型の従来モデルと遜色ない認識精度を達成しつつ、推論速度を抜本的に改善することを試みる。本年度は、モデルの構築手法について焦点を当てて研究を行った。 マスク言語モデルとConnectionist Temporal Classification(CTC)に基づいた、End-to-End音声認識の新たな学習手法を提案した。出力記号間の依存性を考慮できないCTCによる学習に対して、記号間の長期依存性を陽に捉えるマスク言語モデルを導入することで、音声認識の性能が改善することを示した。また、マスク言語モデルを用いて認識結果を非自己回帰的に改善することで、少ない計算コストで認識精度が向上する推論アルゴリズムを開発した。実験により、提案モデルは従来モデルと同等の認識精度を達成しつつ、推論速度を大幅に削減できることを確認した。当該成果は、音声処理の主要会議であるICASSP2021に採録された。 提案モデルをはじめとした非自己回帰型のEnd-to-End音声認識モデルに対して、大規模な比較実験を行った。認識精度と推論速度のトレードオフや雑音に対する頑健性などについて、各モデルの性能を詳細に比較し分析した。また、提案モデルと他の手法を組み合わせることで、認識精度がさらに改善することを示した。今後の関連研究が促進されることを期待し、実験に使用したソースコード等をオープンソース化した。当該成果はASRU2021に採録された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度は、非自己回帰的なEnd-to-End音声認識を実現するための初期検討として、自然言語処理分野における機械翻訳の既存研究を調査し、提案手法の妥当性の確認と課題を抽出する計画であった。それに対し、マスク言語モデルとConnectionist Temporal Classification(CTC)に基づいた、新たなEnd-to-End音声認識の学習手法を提案し、従来モデルと同等の認識精度を達成しつつ、より高速なモデルが構築できることを確認した。 また、次年度以降に計画していた、提案手法のストリーミング音声認識への応用にも取り組んだ。ストリーミング音声認識は、入力音声を逐次的に認識する技術であり、発話から認識までにかかる時間(遅延)を削減することが求められる。これに対して、提案手法を既存のストリーミングモデルの事前学習に用いることで、遅延を低く保ちつつ、認識精度を改善できることを明らかにした。本成果は、共著論文として国際会議にて発表済みである。 以上の通り、本研究課題に関する有望な音声認識手法を提案し、その応用に関する成果も出始めているという点で、当初の計画以上に進展していると言える。
|
今後の研究の推進方策 |
本年度に引き続き、提案手法に基づいたストリーミング音声認識システムの開発を行う。本年度は、Triggered Attention型のモデルにのみ焦点を当てたが、RNN-Transducerといった他のストリーミング方式における有効性は明らかとなっていない。より大規模なコーパスを用いて、他の手法を含めた実験を行うことで、提案アプローチの実用性を検証する。 また、教師なし・半教師あり学習手法を利用することで、提案モデルの性能改善を試みる。一般的に、高精度なEnd-to-End音声認識モデルを学習するには、ラベル付きデータ(発話音声とその書き起こし文)が大量に必要である。それに対して、ラベルなしデータ(発話音声のみ)を活用する教師なし・半教師あり学習により、モデルの性能を改善する手法が多く検討されている。これら手法との統合を検討することで、提案モデルのさらなる高精度化を目指す。
|