2000 Fiscal Year Annual Research Report
コードブック空間情報処理による人物顔認識システムの研究
Project/Area Number |
11555090
|
Research Institution | Tohoku University |
Principal Investigator |
小谷 光司 東北大学, 大学院・工学研究科, 助教授 (20250699)
|
Co-Investigator(Kenkyū-buntansha) |
大見 忠弘 東北大学, 未来科学技術共同研究センター, 教授 (20016463)
|
Keywords | 顔画像認識 / コードブック / ベクトル量子化 / コードブック空間情報処理 / 表情認識 / 話者認識 |
Research Abstract |
前年度開発したベクトル量子化コードブック空間情報処理と呼ぶ新しい情報処理アルゴリズムによる顔画像人物認識技術を改良し認識率の向上を実現した。具体的には,顔画像のピクセル単位でのずれの影響を除外するためのピクセルシフトオーバーラップブロック分割手法,画像に含まれる雑音成分を除去すると共に顔画像人物認識に必要な周波数成分を抽出するための平均値フィルタ処理,最適解像度変換,顔画像の大きさによる影響を除外するためのヒストグラム規格化処理を開発した。また,認識率に替わる認識性能評価指針として有効認識距離の概念を導入し,高認識率領域における認識アルゴリズムの更なる高性能化の研究に用いた。最終的に,44人分各5枚の合計220枚の顔写真を用いた認識実験において,100%の認識率を実現した。 さらに,ベクトル量子化コードブック空間情報処理による人物顔画像認識技術を,表情認識に適用した。認識対象とする人物を限定し,怒り,笑い,標準の3種類の表情を認識する検討を行った。顔画像人物認識と同様の手法で認識実験を行ったところ,100%の表情認識結果が得られている。最適フィルタサイズ,最適画像解像度の検討から,表情認識には,顔面上寸法で13mm〜14mm以上の信号周期を持った信号成分が重要であることが明らかになった。 また,将来的に極めて正確な人物認識,認証を実現する為に,顔認識と同様にコードブック情報処理を用いた話者認識の研究を行った。具体的には,ケプストラム解析を用いた音声信号からの話者特徴抽出とベクトル量子化分類法により個人を認識する音声話者認識技術を開発した。階層化マッチング手法によるベクトル量子化分類の高速化や前学習手法による認識率の向上を実現した。58人分各5回分の録音音声信号を用いた認識実験において,最大97%の認識率を実現した。
|
Research Products
(4 results)
-
[Publications] Z.Pan,K.Kotani,T.Ohmi: "A On-Line Hierarchical Method of Speaker Identification for Large Population"Nordic Signal Processing Symposium. 33-35 (2000)
-
[Publications] Z.Pan,K.Kotani,T.Ohmi: "A speech indexing system for recorded audio source based on speaker identification technique"Advances in Intelligent Systems : Theory and Applications, Edited by Masoud Mohamadian, IOS Press, Ohmsha. 239-243 (2000)
-
[Publications] Z.Pan,K.Kotani,T.Ohmi: "A novel method of speaker identification for large population by pre-learning of test utterance using vector quantization"Proceedings, World Multiconference on Systemics, Cybernetics and Informatics. Vol.VI,Part II. 248-251 (2000)
-
[Publications] Z.Pan,K.Kotani,T.Ohmi: "A Fast Search Method of Speaker Identification for Large Population Using Pre-selection and Hierarchical Matching"6th International Conference on Spoken Language Processing. 290-293 (2000)