Research Abstract |
本研究課題では,具体的にマルチメディア文書として,学会等の講演音声,大学の講義ビデオに着目し,その自動アーカイブ化(メタ情報の埋め込み)と効率良い検索を目指し,そのためのインデキシング技術の開発を行うことを目的として定めた. 講演・講義音声やテレビニュース等にインデキシングを付与する場合,講演・講義者,アナウンサー等の発話者の音声データに着目し,その声を連続音声認識システムにより自動的に認識し,音情報を文字情報に変換することが最も効果的とされている.書き起こされた文書情報が得られれば,後はテキスト文書検索の場合のインデキシングと同様に,書き起こした文書情報から単語のインデキシングを作製し検索に利用する.そのために,この音声認識の精度がインデキシングの精度,そしてそれらのデータを検索するときの検索精度に大きく影響する. 講義や講演,ニュース音声などで,特に専門的な内容に関して話している音声や最新の話題を報道しているニュース音声を認識する場合,その内容に適した言語モデルを事前に学習しておくことは非常に難しい.内容が適していないため,大量の未知語(音声認識辞書に含まれない単語)や音声誤認識の問題に直面し,情報検索の精度が大きく劣化する.名詞,特に固有名詞や専門用語など講演・講義,ニュースの特異性を表す重要単語は未知語になりやすく,その単語のみが認識誤りを起こすのではなく,その前後の単語にも影響を与えるため,未知語の含まれた音声は音声認識による書き起こしが難しい. インターネット上には様々なテキスト情報が存在する.そこで,ここから音声認識したい分野特有のテキストをダウンロードし,言語モデル構築や音声認識誤りに利用できれば,コストがかからず高精度な音声認識が実現できると考えた.具体的には,WEB文書等の外部リソースを用いたより精度の高い音声認識用言語モデルの構築や音声認識結果に対して,同じく外部のWEB文書等の外部リソースを用いた誤り訂正手法を開発し,その有効性を示すことができた.
|