研究概要 |
本研究では,端末を操作する人物を認識するシステムの開発を目的としており,発話時のカラー顔画像の特徴と音声の個人的特徴を高精度で抽出する方法を提案した。具体的には,カラーCCDカメラと4本のマイクロホンからなるマイクロホンアレイを用いた視聴覚融合センシングシステムの開発と音声および顔画像解析に基づく個人的特徴の抽出に関する研究を行なった。本年度の研究成果は以下の通りである。 1. マイクロホンアレイによる話者位置の推定と音声強調:マイクロホンアレイを用いて,周囲雑音を低減させ,特定話者の音声強調と口唇(音源)の位置推定を行なった。本法は,位置情報に基づく相関法により雑音を低減し,さらに,整合フィルタにより特定話者に対して音声を強調させる。周囲雑音が存在する環境で特定話者の実音声強調実験を行い、事前登録した話者の音声に白色雑音を付加した場合,ホルマント周波数が誤差8%以内で推定できた。また,マイクロホンアレイ信号間の遅延時間差を用いた話者位置推定では,推定誤差2.8cmであった。 2. 口唇領域の抽出:成人男子7名,6連続母音発話時の顔画像と音声のデータを収集した。HSVの色空間において肌の色分布モデルを考案し,多重解像度解析によりカラー画像全体から顔領域を抽出した。次に,顔領域内で口唇とその近辺の肌色を識別する色識別モデルを用いて,口唇領域の抽出を行なった。端末を操作する人物のカラー画像を用いて口唇抽出実験を行い,有効性を確かめた。 3. 口唇形状の動的特徴を用いた単語認識:口唇領域の動画像のフレーム間差分演算により動的特徴を抽出し,口唇部の変動パターンより単語を認識する手法を考案した。都道府県名を検査語とした認識実験を行ない,認識率97%を得た。また,認識が話者に大きく依存する単語が存在し,個人の特徴が最もよく現れる単語は,話者により異なることが明らかになった。
|