2005 Fiscal Year Annual Research Report
講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解
Project/Area Number |
16200011
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
美濃 導彦 京都大学, 学術情報メディアセンター, 教授 (70166099)
古井 貞煕 東京工業大学, 情報理工学研究科, 教授 (90293076)
秋田 祐哉 京都大学, 学術情報メディアセンター, 助手 (90402742)
|
Keywords | 音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論 |
Research Abstract |
講義や討論を主な対象として、音声言語処理に基づいて高次のディジタルアーカイブを構成する方法について研究した。 まず、大学の講義に関して、スライドの情報を用いて発話との対応付けを行い、インデックスを生成する方法について検討した。スライドの提示順序や切り替えのタイミングの情報が利用可能な場合と、スライドの構成順序の情報のみを利用した場合の二通りを想定して、対応付けの問題の定式化を行った。スライドの提示順と構成順が一致しない場合や、キーワードが少なく対応付けが困難なスライドに対処するために、複数のスライドから構成されるトピックを定義し、スライドまたはトピックを状態とするマルコフモデルを構成した。また、いずれのスライド/トピックにも対応付けられない発話の検出も試みた。 次に、国会の討論を対象として、公式の会議録と忠実な発話の書き起こし(及び音声)を対応付けた大規模なコーパスの作成を行った。これに基づいて、話し言葉と書き言葉の確率的な変換モデルを学習し、効率的に音声認識用の統計的言語モデルを構築する方法を考案した。また、国会討論の音声認識システムのプロトタイプを作成し、第一候補の単語認識精度で80%、平均的に第二候補まで抽出することにより90%の単語正解率を実現できることを示した。この結果に基づいて、書き起こしの修正・編集を効率的に行うためのインタフェースについても検討を行った。 このような話し言葉音声の自動認識と高次アーカイブ化を実現するための基盤技術として、話者インデキシング、発音変形のモデル化、言語モデルの適応法、及び文境界の自動検出などに関する研究も進めた。
|