研究課題/領域番号 |
18650039
|
研究種目 |
萌芽研究
|
配分区分 | 補助金 |
研究分野 |
知覚情報処理・知能ロボティクス
|
研究機関 | 神戸大学 |
研究代表者 |
有木 康雄 神戸大学, 都市安全研究センター, 教授 (10135519)
|
研究分担者 |
滝口 哲也 神戸大学, 都市安全研究センター, 講師 (40397815)
|
研究期間 (年度) |
2006 – 2008
|
研究課題ステータス |
完了 (2008年度)
|
配分額 *注記 |
3,200千円 (直接経費: 3,200千円)
2008年度: 700千円 (直接経費: 700千円)
2007年度: 1,300千円 (直接経費: 1,300千円)
2006年度: 1,200千円 (直接経費: 1,200千円)
|
キーワード | 音声認識 / 状況認識 / 音響モデル / 言語モデル / インデックス情報 / 実況放送 / 単語共起 / 感情 / 音声等認識 |
研究概要 |
本研課題では、スポーツ実況放送の音声認識、及び状況理解を目的としている。状況理解により、スポーツ実況放送のシーンを構造的な単位に分割し、検索のためのメタ情報として利用可能とする。本研究課題では、確率的な枠組みに基づく音声と状況の同時認識、スポーツの進行に伴う状況変化のモデル化、状況に基づく音声認識モテルに特色がある。 状況変化モデルは、発話された音声を認識し、発話内容に基づいてイベント推定、及び状況の遷移を行うモデルとなる。ここでは特に発話内容からのイベント推定が重要となる。本研究では、多様な発話を高精度に分類可能なAdaBoostを推定のためのモデルとして用いた。ただし、AdaBoostの出力は確率ではないことから、スコアをsigmoid関数により擬似確率化して用いた。また、AdaBoostを行う際の特徴量として、単語順序を考慮可能な手法であるDTA-Kernel PCAについても研究を行った。 状況に基づく音声認識では、状況に応じて変化する言語的・音響的変化に対し、音声認識のモデルを適応する手法について研究を行った。本研究では、それぞれ状況に対応した複数の言語・音響モデルを構築しておき、認識時にモデルを切り替える手法を用いた。状況依存モデルの尤度、及び発話内容からの状況推定の尤度を統合し、最大化することにより、音声認識と状況推定を同時に行った。 スポーツ実況放送では、興奮した音声を含む場合があり、興奮音声の認識は通堂の音響モデルでは困難である。研究課題では、さらなる認識性能向上のため、新しい音声認識特徴量、発話スタイルの変動に頑健な音響モデルについても研究を行った。
|