2006 Fiscal Year Annual Research Report
状況認識に基づくスポーツ実況放送音声の認識と構造化
Project/Area Number |
18650039
|
Research Institution | Kobe University |
Principal Investigator |
有木 康雄 神戸大学, 都市安全研究センター, 教授 (10135519)
|
Co-Investigator(Kenkyū-buntansha) |
滝口 哲也 神戸大学, 都市安全研究センター, 講師 (40397815)
|
Keywords | 音声等認識 / 状況認識 / 音響モデル / 言語モデル / インデックス情報 / 実況放送 / 単語共起 / 感情 |
Research Abstract |
スポーツ実況放送音声を音声認識し、インデックス情報の付与、及びシーンの構造分割を実現するために、スポーツの進行に伴う状況の推定を、音声認識の枠内に組み込む手法の研究を行った。 まず、状況の変化に伴って変化する言語モデルについて研究を行った。状況として、(1)野球のルールに従うカウント情報等、(2)実況放送の書き起こしテキストにおける話題をそれぞれ用いた場合について、言語モデルを提案した。(1)を用いた場合、ルール上の矛盾を引き起こすような認識誤りを防ぐことが可能となった。(2)では、話題の遷移が不自然となるような認識誤りや、同一話題中に現れては不自然な単語の認識誤りが低減された。2つを組み合わせて用いることにより両方の効果を得ることができた。 次に、状況の変化を推定するモデルについて研究を行った。推定手法として、(1)「投げ」と「ストライク」、「三振」などとの共起による手法、(2)一発話全体の単語を用いた投票による手法、(3)書き起こしテキストにおける話題遷移確率を用いる手法の提案を行った。特に(2)では、87%の精度で状況を正しく推定することができた。 また、発話の感情的な変化に頑健な音響モデルを構築するために、(1)状況に応じて音響モデルを切り替える手法、(2)発話スタイルの変動成分を主成分分析により分離する手法、(3)発話の局所的な変化を利用する手法について研究を行った。感情の変化にモデルを追従させることにより頑健に認識を行う手法と、感情の変化がある場合でも言語的には変化しない特徴を用いることで頑健に認識を行う手法の両面について研究を行った。 一方、高精度な音声認識のために、正しい発話区間の推定や雑音の除去も、重要な基礎技術である。そのため、これらについても研究を行った。
|