研究概要 |
講義や討論を主な対象として,音声言語処理に基づいて高次のディジタルアーカイブを構成する方法について研究した. まず,講義を対象として,使用されるスライド資料を活用して,対応する音声区間を分割するとともに,その話題に対して音声認識用の言語モデルを適応する方法を研究した.具体的には,当該講義のスライド全体のテキストを用いて,PLSA(Probabilistic Latent Semantic Analysis)によりN-gramモデルのスケーリングを行うとともに,発話に対応する個々のスライドの情報を用いて,キャッシュモデルによりスライドに現れる単語の確率を強化する.この結果,音声認識精度,特にキーワードの検出精度で大きな改善が見られ,大学の講義でも80%に近い精度を実現した. また,スライド資料がない会議音声を話題単位に自動分割する手法を研究した.音声認識結果に対して,PLSAを適用して,話題を表す特徴ベクトルに変換し,その類似度に基づいて話題分割を行う.さらに,話題ごとに類似したテキストを収集して,単語辞書の更新とN-gram言語モデルの適応を行う.これらの手法を,衆議院予算委員会の音声で評価を行った.これらの処理に基づいて,講義や討論に字幕を付与する試みを行った.
|