2000 Fiscal Year Annual Research Report

動画像と音声の相補的統合による発語認識のための基礎研究

Research Project

Project/Area Number	11680397
Research Institution	Tokyo Metropolitan University
Principal Investigator	田川憲男東京都立大学, 大学院・工学研究科, 助教授 (00244418)
Co-Investigator(Kenkyū-buntansha)	皆川明洋東京都立大学, 大学院・工学研究科, 助手 (00305418)
Keywords	音声認識 / 3次元口唇形状 / 母音認識 / 単語認識 / HMM / モアレ解析 / 反射率 / 領域分離
Research Abstract	今年度は、3次元口唇形状に基づく音声認識・識別方法、ならびに認識された音声に基づく画像生成方法を中心に研究を行ない、以下の成果を得た。 1.認識方法についての成果音声処理においては、音韻の認識・識別が基礎技術としてもっとも重要であり、多くの研究が行なわれている。視覚情報としての3次元口唇形状に基づく方法を考えた場合、子音認識・識別は情報量の面から困難であるため、本研究では母音に絞った手法を検討した。具体的には、3次元の口唇形状から抽出される口唇の縦横の開き具合い及び突き出し具合いを特徴量とし、正規混合分布モデルに基づく学習ならびに識別手法を提案した。また、限られた単語群の中での識別が期待される応用も多い。そこで、上記3つの特徴量を時系列信号と捉え、HMM(隠れマルコフモデル)に基づく識別手法を提案した。両手法に対して、画像情報のみを特徴量として用いた場合との比較実験を行ない、3次元情報を用いることが、顔とカメラの相対的な向きに不変な識別を可能とするだけではなく、識別率の向上にも重要であることを確認した。なお、音声処理との具体的な統合手法の提案までは行なえなかったが、上記両手法は音声処理との統合が実現しやすい方法である。 2.画像生成についての成果昨年度の研究で得られた3次元口唇形状の計算手法は、近赤外領域でのモアレトポグラフィに基づくものであるが、自由視点から見た発音時の口唇形状の画像を生成するためには、可視光画像によるモアレ計算が望ましい。しかし、可視光画像では唇とその周囲の肌とで反射率がかなり異なり、また鏡面反射成分も多くなることから、先に提案した手法では正しい3次元形状が得られず、さらに画像生成時に必要となる反射率も得られない。これを解決するものとして、複数の光源を配置し、得られる複数の縞画像に基づいて反射率の異なる領域の分離を行なうと同時に、各領域の反射率および3次元形状も計算する新たなモアレ解析手法を提案した。これによって得られる3次元形状から、上記(1)で必要とする特徴量を計算でき、また音声識別結果と得られている口唇領域の反射率に基づいて、任意視点からの口唇画像を作成することができる。

Research Products
(3 results)

All Publications (3 results)

[Publications] 宇多弘次,田川憲男,皆川明洋,守屋正: "読唇法に用いる3次元情報を含む発語特微量の有効性評価"電子情報通信学会・システムソサイエティ大会講演論文集. No.D-12-54. 241 (2000)
[Publications] 稲垣敦哉,田川憲男,皆川明洋,守屋正: "モアレ位相と光の反射モデルに基づく物体の3次元形状と反射率の計算"電子情報通信学会技術報告.パターン認識とメディア理解研究会. (2001)
[Publications] 長沼将一,田川憲男,皆川明洋,守屋正: "陰影モデルとモアレ位相を用いた物体の3次元形状と反射率の計算"電子情報通信学会総合大会講演論文集. No.D-12-67. (2001)