1999 Fiscal Year Annual Research Report
発話時のカラー顔画像と音声の融合処理に基づく対話型人物認識法に関する研究
Project/Area Number |
11680426
|
Research Institution | Osaka Electro-Communication University |
Principal Investigator |
松村 雅史 大阪電気通信大学, 情報工学部, 助教授 (80209618)
|
Keywords | マイクロホンアレイ / 整合フィルタ / 音源定位 / 音声強調 / カラー顔画像 / 人物認識 / 三次元声道 / 有限要素法 |
Research Abstract |
本研究では、実環境下において発話時のカラー顔画像の特徴と音声の個人的特徴を高精度で抽出し、総合的あるいは選択的に活用し、端末を操作する人物を認識するシステムの開発を研究目的とする。具体的には、カラーCCDカメラとマイクロホンアレイを有するインテリジェント情報端末の開発,音声生成メカニズムの解析に基づく音声分析技術の高度化を研究目的とする。本年度の研究成果は以下の通りである。 1.インテリジェント情報端末の開発:周囲雑音の低減と共にマイクロホンアレイを用いて話者の音声を忠実に抽出する手法を開発した。本手法は,話者位置情報に基づくDelay-and-sum処理で雑音除去を行ない,整合フィルタにより特定話者の音声を強調する。周囲雑音が存在する環境において音声強調実験を行い、登録話者の音声に対し,ホルマント周波数(F1-F4)が6%以内推定できる事を示した。 2.発話時の口唇領域の抽出:成人男子7名、6連続母音を検査語として、発話時の顔画像と音声のデータを収集した。RGBの色空間において顔領域を抽出し,口唇とその近辺の肌色を識別する肌色モデルを提案した。照明条件を定量的に設定し,実際のカラー顔画像を用いて口唇領域抽出実験より本モデルの有効性を確かめた。 3.音声生成過程の解析に基づく音声分析技術の高度化:磁気共鳴映像法(MRI)により計測した三次元声道の三次元有限要素モデルより,声道内音圧分布と音波の伝播経路を推定した。三次元声道内音圧分布より,2[kHz]以上の帯域において,音波は平面波伝播ではなく,球面波伝播していることを明らかにした。さらに,声道内における音波の伝播経路と周波数の関係を解析した結果,3[kHz]以上の帯域の伝播経路長は周波数と共に長くなっていることを明らかにした。この結果は,音声分析モデルの次数が周波数に関係なく一定とする従来の音声生成モデルの限界を示すと共に改良すべき点を指摘するものである。
|
Research Products
(1 results)