研究課題
本研課題では、スポーツ実況放送の音声認識、及び状況理解を目的としている。状況理解により、スポーツ実況放送のシーンを構造的な単位に分割し、検索のためのメタ情報として利用可能とする。本研究課題では、確率的な枠組みに基づく音声と状況の同時認識、スポーツの進行に伴う状況変化のモデル化、状況に基づく音声認識モテルに特色がある。状況変化モデルは、発話された音声を認識し、発話内容に基づいてイベント推定、及び状況の遷移を行うモデルとなる。ここでは特に発話内容からのイベント推定が重要となる。本研究では、多様な発話を高精度に分類可能なAdaBoostを推定のためのモデルとして用いた。ただし、AdaBoostの出力は確率ではないことから、スコアをsigmoid関数により擬似確率化して用いた。また、AdaBoostを行う際の特徴量として、単語順序を考慮可能な手法であるDTA-Kernel PCAについても研究を行った。状況に基づく音声認識では、状況に応じて変化する言語的・音響的変化に対し、音声認識のモデルを適応する手法について研究を行った。本研究では、それぞれ状況に対応した複数の言語・音響モデルを構築しておき、認識時にモデルを切り替える手法を用いた。状況依存モデルの尤度、及び発話内容からの状況推定の尤度を統合し、最大化することにより、音声認識と状況推定を同時に行った。スポーツ実況放送では、興奮した音声を含む場合があり、興奮音声の認識は通堂の音響モデルでは困難である。研究課題では、さらなる認識性能向上のため、新しい音声認識特徴量、発話スタイルの変動に頑健な音響モデルについても研究を行った。
すべて 2009 2008 その他
すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (16件) 備考 (1件)
情報処理学会論文誌 Vol. 50, No. 2
ページ: 536-574
International Journal of Hybrid Information Technology Vol. 1, No. 3
ページ: 61-70
ページ: 81-90
http://www.me.cs.scitec.kobe-u.ac.jp/publications/publications.html