研究概要 |
本研究では、音声の個人的特徴と発話時の顔の特徴を高精度で抽出し、総合的あるいは選択的に活用し、端末を操作する人物を認識するシステムの開発を研究目的とする。具体的には、カラーCCDカメラとマイクロホンアレイを設置した視聴覚融合センシングシステムの開発,音声生成過程の解析に基づく個人性情報の抽出を研究目的とする。本年度の研究成果は以下の通りである。 1.視聴覚融合センシングシステムの開発 端末にカラーCCDカメラとマイクロホンアレイを設置した視聴覚融合センシングシステムを開発する。まず、4本のマイクロホンを用いて音源(口唇)位置の推定を行う手法を開発した。本手法は4本のマイクロホンと音源との距離の差に伴う信号の位相差を相互相関法により推定し、音源位置を同定する。実音声を用いた音源定位実験を行い、端末から50cm離れた音源位置を誤差2.3cm以内で推定することに成功した。 2.発話時の口唇形状の個人差について 連続母音音声を発声時の口唇形状をカラーCCDカメラにより計測し、同時計測した音声のホルマント周波数の時間変化より各音韻発声時点での口唇形状を推定した。成人男子7名、6連続母音を検査語として、発話時の顔画像と音声のデータを収集した。その結果、口唇形状の縦、横の長さを特徴パラメータとした場合、連続的発話により生ずる調音結合様式には個人差があり、2ヶ月間の特徴パラメータの変動が小さいため、話者認識の特徴量として有用であることが示された。 3.音声生成過程の解析に基づく個人性情報の抽出:磁気共鳴映像法(MRI)により歯冠部を含む声道形状の精密測定に成功し、摩擦子音発声時の声道形状データを得ることができた。また、音声言語の明瞭度を決定する舌-口蓋接触応力の計測、鼻咽喉閉鎖強度の計測に成功した。このような音声生成過程の解析に基づく音声分析により個人識別に有効な特徴量が得られることを示した。
|