2008 Fiscal Year Annual Research Report
状況認識に基づくスポーツ実況放送音声の認識と構造化
Project/Area Number |
18650039
|
Research Institution | Kobe University |
Principal Investigator |
有木 康雄 Kobe University, 都市安全研究センター, 教授 (10135519)
|
Co-Investigator(Kenkyū-buntansha) |
滝口 哲也 神戸大学, 都市安全研究センター, 講師 (40397815)
|
Keywords | 音声認識 / 状況認識 / 音響モデル / 言語モデル / インデックス情報 / 実況放送 / 単語共起 / 感情 |
Research Abstract |
本研課題では、スポーツ実況放送の音声認識、及び状況理解を目的としている。状況理解により、スポーツ実況放送のシーンを構造的な単位に分割し、検索のためのメタ情報として利用可能とする。本研究課題では、確率的な枠組みに基づく音声と状況の同時認識、スポーツの進行に伴う状況変化のモデル化、状況に基づく音声認識モテルに特色がある。 状況変化モデルは、発話された音声を認識し、発話内容に基づいてイベント推定、及び状況の遷移を行うモデルとなる。ここでは特に発話内容からのイベント推定が重要となる。本研究では、多様な発話を高精度に分類可能なAdaBoostを推定のためのモデルとして用いた。ただし、AdaBoostの出力は確率ではないことから、スコアをsigmoid関数により擬似確率化して用いた。また、AdaBoostを行う際の特徴量として、単語順序を考慮可能な手法であるDTA-Kernel PCAについても研究を行った。 状況に基づく音声認識では、状況に応じて変化する言語的・音響的変化に対し、音声認識のモデルを適応する手法について研究を行った。本研究では、それぞれ状況に対応した複数の言語・音響モデルを構築しておき、認識時にモデルを切り替える手法を用いた。状況依存モデルの尤度、及び発話内容からの状況推定の尤度を統合し、最大化することにより、音声認識と状況推定を同時に行った。 スポーツ実況放送では、興奮した音声を含む場合があり、興奮音声の認識は通堂の音響モデルでは困難である。研究課題では、さらなる認識性能向上のため、新しい音声認識特徴量、発話スタイルの変動に頑健な音響モデルについても研究を行った。
|
Research Products
(20 results)