2001 Fiscal Year Annual Research Report
発話時のカラー顔面像と音声の融合処理に基づく対話型人物認識法に関する研究
Project/Area Number |
11680426
|
Research Institution | Osaka Electro-Communication University |
Principal Investigator |
松村 雅史 大阪電気通信大学, 工学部, 教授 (80209618)
|
Co-Investigator(Kenkyū-buntansha) |
新川 拓也 大阪電気通信大学, 工学部, 講師
|
Keywords | ロバスト音声処理 / マイクロホンアレイ / カラー顔画像処理 / 口唇領域抽出 / 人物認識 / 音源定位 / 3次元声道 / ウエーブレット解析 |
Research Abstract |
本研究では、コンピュータをベースとする情報システムの実環境下において、発話時のカラー顔画像の特徴と音声の個人的特徴を高精度で抽出し、総合的あるいは選択的に活用して、端末を操作する人物を認識するシステムの開発を研究目的とする。具体的にはカラーCCDカメラとマイクロホンアレイを有するインテリジェント情報端末の開発、音声生成メカニズムの解析に基づく音声分析技術の高度化を研究目的とする。本年度の研究成果は以下の通りである。 1.インテリジェント情報端末の開発:マイクロホンアレイを用いて発話者の位置推定を忠実に抽出する手法を開発した。本手法は、Wavelet解析により母音音声スペクトルのホルマント帯域信号を抽出して、その信号に基づいてDelay-and-sum処理により特定話者の発話位置を推定する。周囲雑音が存在する環境において発話者の位置推定実験を行い、登録話者の音声に対して推定誤差は5cm以内であった。 2.発話時の口唇領域の抽出:発話時の顔画像と音声のデータを収集した。RGBの色空間において顔領域を抽出し、口唇とその近辺の肌色を識別する肌色モデルを提案した。肌色分布の動的特徴と色情報を併用した口唇位置推定法を提案して、その有効性を示した。 3.三次元声道内音圧分布の解析に基づく音声分析技術の高度化:磁気共鳴映像法(MRI)により計測した三次元声道の有限要素モデルより声道内音圧分布を推定した。この音圧分布より推定した声道長の周波数依存性を解析した結果、3[kHz]以上の帯域の声道長は周波数と共に長くなっていることを明らかにした。この結果は、線形予測分析に代表される音声分析モデルの次数が周波数に関係なく一定とする従来の音声生成モデルの限界を示すと共に、周波数帯域ごとに次数を変えるモデルの必要性を指摘した。
|
Research Products
(4 results)
-
[Publications] 松村雅史: "力センサを配置した人工口蓋床による舌-口蓋接触圧分布と舌力の計測"バイオメカニズム. 16(発表予定). (2002)
-
[Publications] 新川拓也: "三次元声道内の音圧分布に基づく声道長の推定"バイオメカニズム. 16(発表予定). (2002)
-
[Publications] 松村雅史: "力センサ一体型人工口蓋床による舌-口蓋接触圧分布と舌力の計測"Technical report, Information science center, Osaka Electro-Communication university. ISC2001-02. 13-22 (2002)
-
[Publications] 新川拓也: "母音生成時における声道内音圧分布に基づく声道長の推定"Technical report, Information science center, Osaka Electro-Communication university. ISC2001-01. 1-11 (2002)