自動音声認識(ASR)技術を長時間の自動字幕や検索等へ応用可能にするため、低コストで新しい用語等の音声言語知識の拡充を可能にするASR関連技術の開発を行なった。具体的には、リアルタイム出力可能なASRシステムを構築し、出力テキストを直接編集するのではなく修正語だけを入力する枠組みの半自動修正支援システムを実現した。修正語が録音中に現れた時刻を得るために用いる音声検索語検出技術では、かな読みを推論するEnd-to-end型ASRモデルを用いて誤認識箇所に多い未知語に対して検出精度を改善した。この他、雑音や複数話者が混在する音声を想定した話者分離・音声区間検出手法等の開発を行い、有効性を確認した。
|