本研究では、発話時のカラー顔画像の特徴と音声の個人的特徴を高精度で抽出し、総合的あるいは選択的に活用し、端末を操作する人物を認識するシステムの開発を研究目的とする。具体的には、カラーCCDカメラとマイクロホンアレイを用いた視聴覚融合センシングシステムの開発、音声生成過程の解析に基づく個人的特徴の抽出を研究目的とする。本年度の研究成果は以下の通りである。 1.視聴覚融合センシングシステムの開発 周囲雑音を低減させると共にマイクロホンアレイを用いて特定の話者からの音声を抽出する手法を開発した。本手法は、前処理として位置情報に基づく相関法により雑音除去を行い、さらに、整合フィルタにより特定話者に対して音声を強調させる。周囲雑音が存在する環境において特定話者の実音声強調実験を行い、あらかじめ登録した話者の音声に対し、ホルマント周波数が精度よく推定できる事を示した。 2.発話時の口唇領域の抽出 成人男子7名、6連続母音を検査語として、発話時の顔画像と音声のデータを収集した。RGBの色空間およびXYZ座標系において、顔領域を抽出し、口唇とその近辺の肌色を識別する方法を提案した。実際のカラー顔画像を用いて口唇抽出実験を行い、その有効性を確かめた。 3.音声生成過程の解析に基づく個人性情報の抽出: 磁気共鳴映像法(MRI)により計測した三次元声道形状の伝達特性および音圧分布を有限要素法で推定し、実音声と比較した。その結果、三次元声道形状からホルマント周波数を高精度で推定できる事が示された。さらに、摩擦音生成過程を解析するために有限要素法により呼気流を推定し、流速が最大となる聴音位置の推定を行なった。これに基づき音声スペクトルを推定し、実音声の結果と一致する結果を得た。このような音声生成過程の解析に基づく音声分析により個人識別に有効な特微量が得られることを示した。
|