2000 Fiscal Year Annual Research Report

画像中の重要領域の抽出と高能率符号化への応用

Research Project

Project/Area Number	11750313
Research Institution	The University of Electro-Communications
Principal Investigator	長井隆行電気通信大学, 大学院・電気通信学研究科, 助手 (40303010)
Keywords	画像符号化 / ウェーヴレット / フィルタバンク / 重要領域 / 顔領域の抽出 / 文字領域の抽出 / 話者位置推定
Research Abstract	本研究は、画像中の重要な領域を自動抽出し、その領域をより詳細に符号化することで、より効率よく画像情報を圧縮する手法の実現を目的として行った。本研究の成果は以下の通りである。 1.ベースとなる画像符号化の性能向上フィルタバンク(ウェーヴレット)をベースとした画像符号化の性能向上のために、周波数帯域によって異なる基底長を持つ新しいフィルタバンクの構造と設計法を提案した。これにより、復号画像の品質向上を図った。また、提案するフィルタバンクが、seismic dataの圧縮に有効であることも明らかにした。 2.重要領域を考慮した画像符号化方式上記のフィルタバンクをSPIHT符号化に適用し、さらに抽出した重要領域を重み付けすることにより重要領域を考慮した画像符号化を実現した。実際の画像を用いて主観評価実験を行い、有効性を確かめた。 3.重要領域の定義と抽出手法画像中の重要領域のひとつとして、人間の顔を定義し、その抽出手法を検討した。具体的には、カラー静止画像の場合は、固有空間と色(肌の色)を用いて抽出を行い、動画像の場合は、抽出した顔領域を色情報により高速にトラッキングする手法を実現した。また、画像中の重要領域の二つ目として文字領域を定義し、その抽出手法を検討した。画像中の文字領域は、ウェーヴレット変換、独立成分分析、特徴空間からの距離の3つを組み合わせて特徴とし、ニューラルネットワークによって大量のデータから学習することで高い抽出精度を実現した。 4.音声を併用した重要領域の抽出入力信号として、多チャンネルの音声が得られる時、これを用いて話者位置を推定し、その結果を画像符号化に反映させることを検討した。このためにまず、複数のマイクを2次元的に配置し、話者の位置を推定する手法を提案した。これにより、画像中のどの話者が現在発話しているかを知ることができ、動画像符号化に反映させることが可能となる。 5.重要領域抽出と画像符号化手法の統合上述の顔領域抽出手法と画像符号化方式を統合し、PC上に実装した。

Research Products
(6 results)

All Other

All Publications (6 results)

[Publications] T.Nagai,M.Ikehara,M.kaneko A.Kurematsu: "Generalized Unequal Length Lapped Orthogonal Transform for Sub band image Coding"Proc.of IEEE Int.Conf.on Acoustic, Speech and Signal Processing,2000 (ICASSP 2000). 520-523 (2000)
[Publications] T.Nagai,M.Ikeharu,M.Kaneko A Kurematsu: "Generalized Unequal Length Lapped Orthogonal Transform for Subband Image Coding"IEEE Tran.on Signal Processing. Vol.48 No.12. 3365-3378 (2000)
[Publications] 長井隆行,影広達彦,金子正秀,榑松明: "情景画像中の文字及び看板領域の抽出"電子情報通信学会信学技報. (発表予定).
[Publications] T.Nagai,K.Kondo,M.Kaneko A.kurematsu: "Estimation of Speaker's Location using 2-D MUSIC and Its Application to Car Speech Recognition"Proc.of Int, Workshop on Hands-Free Speech Communication. (to appear).
[Publications] L.C.Duval,T.Nagai: "Seismic Data Compression using GULLOTS"Proc.of Int, Carf on Acoustics, Speech and Signal Processing 2001(ICASSP2001). (to appear).
[Publications] T.Nagai,K.Kondo,M.Kuneko,A.Kurematsu: "Estimation of Source Location Based on 2-D MUSIC and Its Application to Speech Recognition in Cars"Proc.of IEEE Int.Conf.on Acoustics, Speech and Signal Processing 2001(ICASSP 2001). (to appear).

2000 Fiscal Year Annual Research Report

画像中の重要領域の抽出と高能率符号化への応用

Principal Investigator

長井 隆行 電気通信大学, 大学院・電気通信学研究科, 助手 (40303010)

Research Products

[Publications] T.Nagai,M.Ikehara,M.kaneko A.Kurematsu: "Generalized Unequal Length Lapped Orthogonal Transform for Sub band image Coding"Proc.of IEEE Int.Conf.on Acoustic, Speech and Signal Processing,2000 (ICASSP 2000). 520-523 (2000)

[Publications] T.Nagai,M.Ikeharu,M.Kaneko A Kurematsu: "Generalized Unequal Length Lapped Orthogonal Transform for Subband Image Coding"IEEE Tran.on Signal Processing. Vol.48 No.12. 3365-3378 (2000)

[Publications] 長井隆行,影広達彦,金子正秀,榑松明: "情景画像中の文字及び看板領域の抽出"電子情報通信学会 信学技報. (発表予定).

[Publications] T.Nagai,K.Kondo,M.Kaneko A.kurematsu: "Estimation of Speaker's Location using 2-D MUSIC and Its Application to Car Speech Recognition"Proc.of Int, Workshop on Hands-Free Speech Communication. (to appear).

[Publications] L.C.Duval,T.Nagai: "Seismic Data Compression using GULLOTS"Proc.of Int, Carf on Acoustics, Speech and Signal Processing 2001(ICASSP2001). (to appear).

[Publications] T.Nagai,K.Kondo,M.Kuneko,A.Kurematsu: "Estimation of Source Location Based on 2-D MUSIC and Its Application to Speech Recognition in Cars"Proc.of IEEE Int.Conf.on Acoustics, Speech and Signal Processing 2001(ICASSP 2001). (to appear).

長井隆行電気通信大学, 大学院・電気通信学研究科, 助手 (40303010)

[Publications] 長井隆行,影広達彦,金子正秀,榑松明: "情景画像中の文字及び看板領域の抽出"電子情報通信学会信学技報. (発表予定).