2007 Fiscal Year Annual Research Report
状況認識に基づくスポーツ実況放送音声の認識と構造化
Project/Area Number |
18650039
|
Research Institution | Kobe University |
Principal Investigator |
有木 康雄 Kobe University, 都市安全研究センター, 教授 (10135519)
|
Co-Investigator(Kenkyū-buntansha) |
滝口 哲也 神戸大学, 都市安全研究センター, 講師 (40397815)
|
Keywords | 音声認識 / 状況認識 / 音響モデル / 言語モデル / インデックス情報 / 実況放送 / 単語共起 / 感情 |
Research Abstract |
本研究課題では、スポーツ実況放送音声を認識し、インデックス情報の付与、及びシーンの構造分割の実現を目的としている。スポーツの進行に伴う状況の変化をモデル化し、音声認識に組み入れることで認識性能の向上を実現する。 状況の変化をモデル化する手法として、Probabilistic Latent Semantic Analysis(pLSA)とHMMにより発話のトピックの遷移を表現する手法を提案した。これは、各発話のトピックベクトルをpLSAによって求め、そのトピックの変化をHMMによって表現したモデルである。これにより、固定された言語モデルによって音声認識を行うのではなく、発話ごとに適した言語モデルを構築して音声認識を行うことが可能となった。本手法においては、明確なトピックを定義するのではなく、pLSAとHMMにより、教師なしで自動的に状況変化モデルを構築している。そのため、スポーツ実況中継に限らず、幅広い範囲での応用が可能と考えられる。 また、発話の意図認識について研究を行った。これは、発話が音声認識システムへの問い合わせか、その他、人同士の雑談・独り言などとの識別を目的としている。直接、スポーツをテーマにしたものではないが、スポーツのゲーム進行を説明する発話、解説者との雑談などを区別する目的において応用可能な研究である。これは、言語的な特徴、韻律特徴、それぞれを用いた場合について研究を行った。 更に、より認識性能を向上させるため、新しい特徴量の検討、多様な音声を認識するために発話スタイルの変動に頑健な特徴を用いた音響モデル、音声に含まれる突発性雑音の分類と除去についても研究を行った。
|
Research Products
(31 results)