研究概要 |
複数話者の同時発話や非定常雑音が生じる状況において,機械による音声対話や対話分析・支援を行うには,(A)話者位置同定,(B)発話区間同定,(C)発話分離という要素技術が不可欠である,本研究では,これらを高精度に実現することを目的として,口元の動きと音声との時間同期構造に注目した,新たな発話解析手法の構築を目指す.本手法は,微分(差分)方程式系と離散事象系とを統合したハイブリッドシステムを用いることで,カメラとマイクロフォンにより得られる信号をそれぞれ分節化して表現し,両信号間の詳細な時間同期構造モデルを統計的に学習するという特徴を持つ.このモデルを用いることで,従来のリップシンクのような「音声から口元の動き」とは逆向きの,「口元の動きから音声」という信号生成機構を実現でき,高精度な音声分離・推定につながることが期待できる.21年度は,雑音環境下での頑健な音声推定に焦点を絞り,下記の研究を行った. 1. ハイブリッドシステムに基づく音声・口唇運動のモデル化:Active Appearance Modelと呼ばれる手法を応用することで映像中の口唇位置を追跡し,口元の見えに基づく特徴を安定に抽出する手法を開発した,一方,音声からはスペクトル包絡を抽出することで,映像・音声の特徴系列それぞれを,複数の線形システムの切り替わりからなるようなハイブリッドシステムとしてモデル化することが可能となった. 2. 口唇運動からの高精度な音声推定法:1により抽出される分節点(線形システムの切り替わる時点)の時間関係に基づいて,口唇運動-音声間のタイミング構造モデルをあらかじめ低雑音環境下で学習する.これを利用することで,雑音環境下で新たに観測された発話時の口唇運動から,それに合った音声特徴系列の複数候補を,拡張Viterbiアルゴリズムに基づいて推定する手法を開発した.
|