複数話者の同時発話や非定常雑音が生じる状況において、機械による音声対話や対話分析・支援を行うには、話者位置同定、発話区間同定、発話分離という要素技術が不可欠である。本研究では、これらを高精度に実現するための基盤技術を開発することを目的として、口元の動きと音声との時間同期構造に注目した、新たな発話解析手法の構築を目指す。本手法は、微分(差分)方程式系と離散事象系とを統合したハイブリッドシステムを用いることで、カメラとマイクロフォンにより得られる信号をそれぞれ分節化して表現し、両信号間の詳細な時間同期構造モデルを統計的に学習するという特徴を持つ。このモデルを用いることで、従来のリップシンクのような「音声から口元の動き」とは逆向きの、「口元の動きから音声」という信号生成機構を実現でき、高精度な音声分離・推定につながることが期待できる。 22年度は、21年度に開発した手法を基礎にしながら、非定常雑音環境における発話音声推定手法を開発した。従来、パーティクルフィルタに基づく非定常雑音の追跡手法が提案されているが、信号対雑音比が小さい場合は、実際の発話音声に十分近く、かつ時間的に変化できるような事前分布を与える必要があることから、大きな非定常雑音が存在する状況での利用は難しい。そこで本研究では、撮影された口元の映像に対して、あらかじめ学習されたハイブリッドシステムと時間同期構造モデルを用いることで、「口元の動きと矛盾せず、かつ動的に変化するようなクリーン音声の事前分布系列」の生成を実現し、この分布を用いてパーティクルフィルタに基づく雑音追跡を行うことで、信号対雑音比が非常に小さい場合においても、高精度に発話音声の特徴系列を推定することを可能とした。
|