音声認識において,一般的な話題のテキストデータから学習したモデルでは,講義・講演のような専門性のある内容の音声を高い精度で書き起こすことは難しい.このための方策として,言語モデルを特定の話題に適応する,いわゆる言語モデル適応がある.本研究では,認識対象の音声とともに与えられる話題関連のテキストを用いて,ニューラルネットワークに基づく言語モデルに対して自動的に適応処理を行い,自動的に音声の字幕を作成するシステムを構成した.本システムは,適応したモデルによる事後的な字幕の作成だけでなく,リアルタイムの字幕付与も行うことができる.
|