研究概要 |
本研究では、発話時のカラー顔画像の特徴と音声の個人的特徴を高精度で抽出し、総合的あるいは選択的に活用して、端末を操作する人物を認識するシステムの開発を研究目的とする。具体的には、カラーCCDカメラとマイクロホンアレイを有するインテリジェント情報端末の開発、音声生成メカニズムの解析に基づく音声分析技術の高度化を研究目的とする。本研究の研究成果は以下の通りである。 1.視聴覚融合インテリジェント情報端末の開発:マイクロホンアレイを用いて発話者の位置推定を忠実に抽出する手法を開発した。画像情報を併用しながら音声のホルマント帯域信号に基づいてDelay-and-sum処理により特定話者の発話位置を推定する。周囲雑音が存在する環境において,話者の音声に対して推定誤差は5cm以内であり,マイクやカメラの位置を気にすることなくコミュニケーションが可能なインテリジェント情報端末が実現できた。 2.発話時のカラー顔画像の解析:発話時の顔画像と音声のデータよりRGBの色空間において顔領域を抽出し、口唇とその近辺の肌色を識別する肌色モデルを提案した。照明条件を考慮して肌色分布の動的特徴と色情報を併用した口唇位置推定法を提案して、その有効性を示した。 3.音声生成メカニズムの解析に基づく音声分析技術の高度化:磁気共鳴映像法(MRI)により計測した三次元声道の有限要素モデルより声道内音圧分布を推定し、3[kHz]以上の帯域の声道長は周波数と共に長くなっていることを明らかにした。この成果は、線形予測分析に代表される従来の音声生成モデルの限界を示すと共に、周波数帯域ごとに次数を変えるモデルの必要性を指摘した。また,人物認識実験および発話者の位置推定実験を通じて,視聴覚融合センシングシステムは,カメラやマイクの位置を気にすることなくコミュニケーションが可能であり,高齢者などの中心に利用層の拡大が期待できる。
|