2022 Fiscal Year Annual Research Report
実用性の高いEnd-to-End音声認識に向けた研究
Project/Area Number |
21J23495
|
Allocation Type | Single-year Grants |
Research Institution | Waseda University |
Principal Investigator |
樋口 陽祐 早稲田大学, 理工学術院, 特別研究員(DC1)
|
Project Period (FY) |
2021-04-28 – 2024-03-31
|
Keywords | 音声認識 |
Outline of Annual Research Achievements |
音声を使ったインターフェースの実用性を向上させるために、高速で高精度な音声認識技術の開発を進めている。これまでの研究では、マスク言語モデルに基づいた非自己回帰型のEnd-to-End音声認識モデルを構築し、従来モデルと遜色ない認識精度を実現しつつ、推論速度を大幅に高速化できることを示してきた。本年度は、提案モデルに大規模汎用言語モデルを取り入れることで、認識精度をさらに向上できることを明らかにした。また、提案モデルのストリーミング音声認識における有効性を確認した。 音声認識において正確な文を生成するには、単語間の依存関係を捉えることが重要となるが、これを音声情報のみから抽出するのは容易でない。これに対し、大規模言語モデルであるBERTから得られる汎用的な言語知識を、音声処理の過程に組み込むことで、出力の文脈情報を効果的に捉えられる音声認識手法を考案した。様々な言語や発話スタイル、学習データ量を用いた音声認識実験において提案手法を評価した結果、従来モデルよりもも高い認識精度が得られることを確認した。また、これまでに開発した推論アルゴリズムと組み合わせることで、認識速度を大幅に高速化できることも明らかとなった。 当該成果は、自然言語処理の主要会議であるEmpirical Methods inNatural Language Processing (EMNLP 2022)のFindings、および音声処理の主要会議であるIEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)などに採択された。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度は、自己教師あり学習手法に基づいた技術を用いることで、提案モデルの性能を向上させる計画であった。これに対し、自然言語処理分野で広く使用されている大規模汎用言語モデルに着目し、提案モデルの学習・推論プロセスに組み込むことで、認識精度を大幅に改善できることを確認した。また、提案モデルのストリーミング化についても、去年度の成果に引き続き性能改善を行い、より低遅延かつ高精度な音声認識システムを構築できることが明らかになった。これら成果は主著および共著論文として国際会議にて発表済みである。 以上の通り、本研究課題が目的とする音声認識技術を大幅に発展させ、多くの成果が出ているという点で、当初の計画以上に進展していると言える。
|
Strategy for Future Research Activity |
大規模汎用モデルを用いた音声認識技術の開発を進める。本年度では、大量のテキストデータにより構築された汎用言語モデルを着目したのに対して、今後は大量の音声データにより構築された汎用音響モデルを用いることを検討する。一般的に、高精度なEnd-to-End音声認識モデルを学習するには、大量のラベル付きデータが必要である。これに対し、大規模汎用音響モデルおよび言語モデルを効果的に組み合わせることで、低資源環境下でも実用的な音声認識システムを構築することを目指す。
|