研究概要 |
本研究では、実環境下において発話時のカラー顔画像の特徴と音声の個人的特徴を高精度で抽出し、総合的あるいは選択的に活用し、端末を操作する人物を認識するシステムの開発を研究目的とする。具体的には、カラーCCDカメラとマイクロホンアレイを有するインテリジェント情報端末の開発,音声生成メカニズムの解析に基づく音声分析技術の高度化を研究目的とする。本年度の研究成果は以下の通りである。 1.インテリジェント情報端末の開発:マイクロホンアレイを用いて発話者の位置推定と話者の音声を忠実に抽出する手法を開発した。本手法は,Wavelet解析により話者位置を推定し,それに基づいてDelay-and-sum処理と独立成分分析により特定話者の音声を強調する。周囲雑音が存在する環境において音声強調実験を行い、登録話者の音声に対し,ホルマント周波数(F1-F4)が4%以内で推定できる事を示した。 2.発話時の口唇領域の抽出:成人男子7名、6連続母音を検査語として、発話時の顔画像と音声のデータを収集した。RGBの色空間において顔領域を抽出し,口唇とその近辺の肌色を識別する肌色モデルを提案した。照明条件を定量的に設定し,実際のカラー顔画像を用いて口唇領域抽出実験より,本モデルの有効性と口唇領域の抽出にはハロゲンランプが有効であることを確かめた。 3.音声生成過程の解析に基づく音声分析技術の高度化:磁気共鳴映像法(MRI)により計測した三次元声道の三次元有限要素モデルより,声道内音圧分布と音波の伝播経路を推定した。声道内における音波の伝播経路と周波数の関係を解析した結果,3[kHz]以上の帯域の伝播経路長は周波数と共に長くなっていることを明らかにした。この結果は,音声分析モデルの次数が周波数に関係なく一定とする従来の音声生成モデルの限界を示すと共に周波数帯域ごとに次数を変えるモデルの必要性を指摘した。
|