2011 Fiscal Year Annual Research Report
2次元画像・音響特徴量の選択的利用による3次元頭部形状推定に関する研究
Project/Area Number |
21700207
|
Research Institution | Waseda University |
Principal Investigator |
前島 謙宣 早稲田大学, IT研究機構, 研究員 (50454046)
|
Keywords | 画像特徴量 / 音響特徴量 / 顔特徴データベース / 正準相関分析 / ニューラルネットワーク / 3次元頭部形状推定 |
Research Abstract |
本研究の目的は、人物頭部の3次元形状と個人の声質の間の相関関係を明らかにし、その相関関係に基づいて、画像特徴量あるいは音響特徴量から未知の人物の尤もらしい3次元頭部形状を推定することである。本年度は、昨年度に引き続き、顔特徴データベースの拡充作業を行った。結果的に、男性71、女性38、計109人分の特徴を含む顔特徴データベースを構築することができた。次に、Radial Basis Functionsとエネルギー最小化に基づく非剛体レジストレーション手法により、半自動で被験者の3次元頭部モデルを構築する手法を開発した。これにより、個人の顔輪郭の特徴を反映した3次頭部モデルを構築することが可能となった。また、個人を表す音響特徴量として、基本周波数、メル周波数ケプストラル係数、Relative Spectraについて検討した.検討結果に基づき、話者の口腔の音響特徴を表すことができるメル周波数ケプストラル係数とその1次、2次差分係数を用い、単母音から抽出された特徴量と正準相関分析およびフィードフォワード型のニューラルネットワークにより3次元頭部モデルのとマッピングした。データベース中の70名分の単母音データを用いた10ホールドのクロスバリデーションテストの結果から、ニューラルネットを用いた場合に、音声単独から6.7[mm]の精度誤差で3次元頭部形状を予測できることが分かった。さらに、3次元形状推定に有効な画像特徴量と、画像・音響特徴量と組み合わせて、3次元形状推定を行う枠組みについて検討した。
|