2022 年度研究成果報告書

実環境音声認識のための深層学習と人手を併用する音声言語知識拡充フレームワーク

研究課題

PDF

研究課題/領域番号	18K11431
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	静岡大学
研究代表者	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
研究期間 (年度)	2018-04-01 – 2023-03-31
キーワード	自動音声認識 / 深層学習 / 長時間録音 / 自動修正 / 音声検索語検出 / 読み推定 / End-to-end型 / リアルタイム
研究成果の概要	自動音声認識（ASR）技術を長時間の自動字幕や検索等へ応用可能にするため、低コストで新しい用語等の音声言語知識の拡充を可能にするASR関連技術の開発を行なった。具体的には、リアルタイム出力可能なASRシステムを構築し、出力テキストを直接編集するのではなく修正語だけを入力する枠組みの半自動修正支援システムを実現した。修正語が録音中に現れた時刻を得るために用いる音声検索語検出技術では、かな読みを推論するEnd-to-end型ASRモデルを用いて誤認識箇所に多い未知語に対して検出精度を改善した。この他、雑音や複数話者が混在する音声を想定した話者分離・音声区間検出手法等の開発を行い、有効性を確認した。
自由記述の分野	音声言語処理
研究成果の学術的意義や社会的意義	講義や会議などの長時間音声に対する自動音声認識（ASR）技術の適用において、近年のAI技術を用いた事例では、新しい語や話題を低コストで効率的に習得する手法が不足しており、全自動での字幕生成等では実用的な認識精度がまだ達成されていない。本研究課題では、リアルタイム性を重視して新しい語のテキスト情報のみを手動で提供する枠組みを提案し、ASR技術を基にした自動字幕や検索の精度を低コストで改善させる手法を提案した。これにより、ASR技術の応用可能性を一段と高められることを実証した。