本研究では、コンピュータをベースとする情報システムの実環境下において、発話時のカラー顔画像の特徴と音声の個人的特徴を高精度で抽出し、総合的あるいは選択的に活用して、端末を操作する人物を認識するシステムの開発を研究目的とする。具体的にはカラーCCDカメラとマイクロホンアレイを有するインテリジェント情報端末の開発、音声生成メカニズムの解析に基づく音声分析技術の高度化を研究目的とする。本年度の研究成果は以下の通りである。 1.インテリジェント情報端末の開発:マイクロホンアレイを用いて発話者の位置推定を忠実に抽出する手法を開発した。本手法は、Wavelet解析により母音音声スペクトルのホルマント帯域信号を抽出して、その信号に基づいてDelay-and-sum処理により特定話者の発話位置を推定する。周囲雑音が存在する環境において発話者の位置推定実験を行い、登録話者の音声に対して推定誤差は5cm以内であった。 2.発話時の口唇領域の抽出:発話時の顔画像と音声のデータを収集した。RGBの色空間において顔領域を抽出し、口唇とその近辺の肌色を識別する肌色モデルを提案した。肌色分布の動的特徴と色情報を併用した口唇位置推定法を提案して、その有効性を示した。 3.三次元声道内音圧分布の解析に基づく音声分析技術の高度化:磁気共鳴映像法(MRI)により計測した三次元声道の有限要素モデルより声道内音圧分布を推定した。この音圧分布より推定した声道長の周波数依存性を解析した結果、3[kHz]以上の帯域の声道長は周波数と共に長くなっていることを明らかにした。この結果は、線形予測分析に代表される音声分析モデルの次数が周波数に関係なく一定とする従来の音声生成モデルの限界を示すと共に、周波数帯域ごとに次数を変えるモデルの必要性を指摘した。
|