2004 Fiscal Year Annual Research Report
講演・講義・討論のディジタルアーカイブ化のための音声・映像の認識と理解
Project/Area Number |
16200011
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Research Institution | Kyoto University |
Principal Investigator |
河原 達也 京都大学, 学術情報メディアセンター, 教授 (00234104)
|
Co-Investigator(Kenkyū-buntansha) |
美濃 導彦 京都大学, 学術情報メディアセンター, 教授 (70166099)
古井 貞煕 東京工業大学, 情報理工学研究科, 教授 (90293076)
|
Keywords | 音声情報処理 / 音声認識 / 音声アーカイブ / 話し言葉処理 / 自動タグ付与 / 講演 / 講義 / 討論 |
Research Abstract |
学会等の講演やパネル討論を主な対象として、音声言語処理に基づいて高次のディジタルアーカイブを構成する方法について研究した。 まず講演を対象として、音声認識及び重要文抽出の方法について研究した。特に重要文抽出に関しては、話題の転換点に頻出する談話標識に基づく手法を提案した。本手法は人手による事前のタグ付けを一切必要とせず、完全な教師なし学習により行われる。その上で、選定された談話標識の統計量に基づく重要度尺度を定義し、話題語に基づく重要度尺度と統合した。『日本語話し言葉コーパス』(CSJ)の学会講演を対象に評価を行った結果、(1)談話標識に基づく手法が有効であること、(2)話題語に基づく手法と統合することにより相乗効果が得られること、(3)提案手法が音声認識誤りに対して頑健であること、が示された。さらに、人間による重要文抽出精度との比較も行った。 また、パネル討論のアーカイブ化を行うシステムについても研究した。各発話について、話者インデキシング及び音声認識を行う。その上で、上記と同様に重要文を抽出したり、発話タイプ(=談話タグ)を推定する手法についても検討し、話者インデックスや書き起こしなどとともに、MPEG-7の枠組みでエンコードするシステムを設計した。 このような高次アーカイブを実現するための基盤技術として、講演などの話し言葉の音声認識や討論音声に対する話者インデキシングに関する研究も進めた。
|
Research Products
(6 results)