音声を介したインターフェースの実用性を高めるために、高速かつ高精度に動作可能な音声認識システムの開発を目指している。これまでの研究では、マスク言語モデルに基づいた非自己回帰型のEnd-to-End音声認識システムを構築し、従来の自己回帰型システムと比べて遜色ない認識精度を維持しつつ、推論速度の大幅な改善を達成してきた。また、提案システムの応用として、事前学習されたマスク言語モデルを用いることや、ストリーミング音声認識に拡張することを検討し、精度および機能性のさらなる向上についても有望な結果を得ている。本年度は、自然言語処理分野で急激に発展している生成型言語モデルに着目し、これまでに得られた成果を基盤として、新たな音声認識技術の開発に取り組んだ。
本年度は、生成型言語モデルから得られる汎用的な言語知識を活用して、End-to-End音声認識システムの性能を向上することを試みた。ChatGPTといった最新の生成型言語モデルは、自然言語による指示を含むプロンプトを通じてファインチューニングすることで、様々な自然言語処理タスクに対して高い汎化性能を示している。本研究では、生成型言語モデルに音声認識仮説の文法誤り訂正タスクを解かせ、そこから得られる特徴表現を用いてEnd-to-End音声認識モデルにおける系列生成を学習した。複数の音声認識用データセットを用いた評価実験の結果、提案方式によって高い認識精度が達成できることを確認した。その一方で、大規模な生成型言語モデルを用いることによる推論速度の低下も課題として明らかとなった。当該成果は、査読付きの国際会議に投稿中である。
上記の主要な成果の他にも、ストリーミング音声認識への拡張や高速な推論アルゴリズムの開発にも取り組んだ。これら成果は共著論文として国際会議に採択されている。
|