研究課題
本研究課題では、スポーツ実況放送音声を認識し、インデックス情報の付与、及びシーンの構造分割の実現を目的としている。スポーツの進行に伴う状況の変化をモデル化し、音声認識に組み入れることで認識性能の向上を実現する。状況の変化をモデル化する手法として、Probabilistic Latent Semantic Analysis(pLSA)とHMMにより発話のトピックの遷移を表現する手法を提案した。これは、各発話のトピックベクトルをpLSAによって求め、そのトピックの変化をHMMによって表現したモデルである。これにより、固定された言語モデルによって音声認識を行うのではなく、発話ごとに適した言語モデルを構築して音声認識を行うことが可能となった。本手法においては、明確なトピックを定義するのではなく、pLSAとHMMにより、教師なしで自動的に状況変化モデルを構築している。そのため、スポーツ実況中継に限らず、幅広い範囲での応用が可能と考えられる。また、発話の意図認識について研究を行った。これは、発話が音声認識システムへの問い合わせか、その他、人同士の雑談・独り言などとの識別を目的としている。直接、スポーツをテーマにしたものではないが、スポーツのゲーム進行を説明する発話、解説者との雑談などを区別する目的において応用可能な研究である。これは、言語的な特徴、韻律特徴、それぞれを用いた場合について研究を行った。更に、より認識性能を向上させるため、新しい特徴量の検討、多様な音声を認識するために発話スタイルの変動に頑健な特徴を用いた音響モデル、音声に含まれる突発性雑音の分類と除去についても研究を行った。
すべて 2008 2007 その他
すべて 雑誌論文 (7件) (うち査読あり 7件) 学会発表 (23件) 備考 (1件)
IEICE TRANSACTIONS on Information and Systems Vol.E91-D, No.3
ページ: 522-528
Journal of Multimedia Volume 2, Issue 5
ページ: 13-18
IEEE Statistical Signal Processing Workshop 2007
ページ: 336-340
ページ: 778-782
Interspeech2007
ページ: 1150-1153
ページ: 2789-2792
NCSP 2008
ページ: 9-12
http://www.me.cs.scitec.kobe-u.ac.jp/publications/publications.html