本研究では、日本語音声認識の性能向上を目的として、音響モデル単位を最新の深層学習技術を用いて自動獲得することを目指していた。研究の途中で、より新しい音声認識技術であるEnd-to-End(E2E)音声認識フレームワークを用いることで、目指していたことが自然と実現できる可能性に気が付いたため、2021年度は研究方針の修正を行い、E2E音声認識での音声認識精度向上を目指した特徴抽出フレームワークによる高速話者適応やE2E多言語音声認識等を行った。 研究代表者(山本)は、2021年度は、従来から行っていた頑健な音声認識のためのガンマトーンフィルタバンクによる自動的な特徴抽出手法を、音声認識が難しい超高齢者音声認識の少量音声による高速な話者適応手法として利用し、超高齢者音声認識の精度を改善する手法について研究を行った。この音声特徴抽出は、E2E音声認識においても音声特徴抽出部として利用が可能であり、且つ、話者適応手法としても同様に動作するため、今後行う予定の研究の基礎として、有効利用可能である。 研究分担者(西崎)は、2021年度の研究において、E2Eの音声認識のフレームワークにおいて、言語および話者非依存の音声特徴抽出を行うことで音声認識の性能を向上させる手法を考案した。具体的には、音声認識器に加えて、言語認識器と話者認識器を組み合わせたマルチタスク学習法である。提案手法を多言語音声認識タスクで評価した結果、提案手法は各言語の音声認識モデルよりも高い精度を達成することができた。 本研究は途中で軌道修正を行ったことで当初目的とは少し異なった研究となったが、これらの研究は今後引き続いて行う研究の基礎となるものであり、これらの研究成果に基づいて今後はより難しい超高齢者音声認識をターゲットとした研究を行っていく計画である。
|