自動音声認識技術は講義や会議のような場面で自動字幕や書起こし、検索等の用途へ応用が望まれるが、特にそれらの用途では新出の用語への対応が継続的に必要であり、そのチューニングのためのデータ準備に大きなコストがかかる。本研究では、自動音声認識から自動字幕化までの実運用の想定で、少ない労力および遅延で字幕修正に対応できるよう、自動音声認識の出力テキストを修正する支援者が必要最小限の修正情報を教示し、そこから半自動的に字幕修正および音声認識モデルをチューニングする仕組みを持つ自動字幕支援システムの開発を進めた。具体的には、リアルタイムの自動字幕生成に適した音声認識システムを深層学習モデルで構築し、1)自動音声認識出力の半自動修正手法の開発、2)注目話者を想定した話者分離・音声区間検出手法の開発、3)ユーザの修正語入力による半自動修正機能をもつ自動字幕支援システムの実装、を行った。 自動音声認識出力の半自動修正手法の実現では、自動音声認識の出力テキスト中に含まれない語(修正語)だけを修正支援者がテキスト入力する想定で、音声から入力テキストの出現位置を検索する技術の高精度化を図った。具体的には、音声認識モデルに含まれない未知語が修正語になりやすいことから、音声の読み(かな列)を推論するEnd-to-end型音声認識モデルを用いた検索手法を提案した。修正語の出現位置の検索結果を用いて音声認識結果の曖昧さを表現したラティス情報から自動音声認識の出力テキストを自動修正する手法と組合せることで、低コストに修正が実現できることを実験的に実証した。その他、講義や会議の環境の自動音声認識の性能を低コストに改善するため、注目する話者や環境の特徴量を手がかりとした音声区間検出やドメイン適応手法を提案すると共に、リアルタイムで動作する字幕修正支援システムを実装し、それぞれ有効性を確認した。
|