2006 Fiscal Year Annual Research Report
講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解
Project/Area Number |
16200011
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
美濃 導彦 京都大学, 学術情報メディアセンター, 教授 (70166099)
古井 貞煕 東京工業大学, 情報理工学研究科, 教授 (90293076)
秋田 祐哉 京都大学, 学術情報メディアセンター, 助手 (90402742)
|
Keywords | 音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論 |
Research Abstract |
講義や討論を主な対象として,音声言語処理に基づいて高次のディジタルアーカイブを構成する方法について研究した. まず,講義を対象として,使用されるスライド資料を活用して,対応する音声区間を分割するとともに,その話題に対して音声認識用の言語モデルを適応する方法を研究した.具体的には,当該講義のスライド全体のテキストを用いて,PLSA(Probabilistic Latent Semantic Analysis)によりN-gramモデルのスケーリングを行うとともに,発話に対応する個々のスライドの情報を用いて,キャッシュモデルによりスライドに現れる単語の確率を強化する.この結果,音声認識精度,特にキーワードの検出精度で大きな改善が見られ,大学の講義でも80%に近い精度を実現した. また,スライド資料がない会議音声を話題単位に自動分割する手法を研究した.音声認識結果に対して,PLSAを適用して,話題を表す特徴ベクトルに変換し,その類似度に基づいて話題分割を行う.さらに,話題ごとに類似したテキストを収集して,単語辞書の更新とN-gram言語モデルの適応を行う.これらの手法を,衆議院予算委員会の音声で評価を行った.これらの処理に基づいて,講義や討論に字幕を付与する試みを行った.
|
Research Products
(7 results)
-
-
-
-
-
-
-
[Book] 音声対話システム2006
Author(s)
河原達也, 荒木雅弘
Total Pages
208
Publisher
オーム社
Description
「研究成果報告書概要(和文)」より