2010 Fiscal Year Annual Research Report

視覚から聴覚系へのフィードバック機構に基づく発話解析手法の構築

Research Project

Project/Area Number	21680016
Research Institution	Kyoto University
Principal Investigator	川嶋宏彰京都大学, 情報学研究科, 講師 (40346101)
Keywords	音声推定・分離 / 口唇運動 / 線形システム / ハイブリッドシステム / タイミング構造 / 視聴覚統合 / マルチモダリティ / 時系列の分節化
Research Abstract	複数話者の同時発話や非定常雑音が生じる状況において、機械による音声対話や対話分析・支援を行うには、話者位置同定、発話区間同定、発話分離という要素技術が不可欠である。本研究では、これらを高精度に実現するための基盤技術を開発することを目的として、口元の動きと音声との時間同期構造に注目した、新たな発話解析手法の構築を目指す。本手法は、微分(差分)方程式系と離散事象系とを統合したハイブリッドシステムを用いることで、カメラとマイクロフォンにより得られる信号をそれぞれ分節化して表現し、両信号間の詳細な時間同期構造モデルを統計的に学習するという特徴を持つ。このモデルを用いることで、従来のリップシンクのような「音声から口元の動き」とは逆向きの、「口元の動きから音声」という信号生成機構を実現でき、高精度な音声分離・推定につながることが期待できる。 22年度は、21年度に開発した手法を基礎にしながら、非定常雑音環境における発話音声推定手法を開発した。従来、パーティクルフィルタに基づく非定常雑音の追跡手法が提案されているが、信号対雑音比が小さい場合は、実際の発話音声に十分近く、かつ時間的に変化できるような事前分布を与える必要があることから、大きな非定常雑音が存在する状況での利用は難しい。そこで本研究では、撮影された口元の映像に対して、あらかじめ学習されたハイブリッドシステムと時間同期構造モデルを用いることで、「口元の動きと矛盾せず、かつ動的に変化するようなクリーン音声の事前分布系列」の生成を実現し、この分布を用いてパーティクルフィルタに基づく雑音追跡を行うことで、信号対雑音比が非常に小さい場合においても、高精度に発話音声の特徴系列を推定することを可能とした。

Research Products
(4 results)

All 2010 Other

All Presentation (3 results) Remarks (1 results)

[Presentation] Interval-based Modeling of Human Communication Dynamics via Hybrid Dynamical Systems2010
- Author(s)
  Hiroaki Kawashima
- Organizer
  Workshop on Human Communication Dynamics (NIPS WS)
- Place of Presentation
  カナダ(ウィスラー)
- Year and Date
  2010-12-10
[Presentation] Speech Estimation in Non-Stationary Noise Environments Using Timing Structure between Mouth Movements and Sound Signals2010
- Author(s)
  Hiroaki Kawashima
- Organizer
  Interspeech
- Place of Presentation
  千葉(幕張)
- Year and Date
  2010-09-27
[Presentation] 口唇運動-音声間のタイミング構造を利用した非定常雑音環境での発話音声推定2010
- Author(s)
  川嶋宏彰
- Organizer
  第13回画像の認識・理解シンポジウム(MIRU)
- Place of Presentation
  北海道(釧路)
- Year and Date
  2010-07-29
[Remarks]
- URL
  http://vision.kuee.kyoto-u.ac.jp/~hiroaki/research/

2010 Fiscal Year Annual Research Report

視覚から聴覚系へのフィードバック機構に基づく発話解析手法の構築

Principal Investigator

川嶋 宏彰 京都大学, 情報学研究科, 講師 (40346101)

Research Products

[Presentation] Interval-based Modeling of Human Communication Dynamics via Hybrid Dynamical Systems2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Speech Estimation in Non-Stationary Noise Environments Using Timing Structure between Mouth Movements and Sound Signals2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 口唇運動-音声間のタイミング構造を利用した非定常雑音環境での発話音声推定2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks]

URL

川嶋宏彰京都大学, 情報学研究科, 講師 (40346101)