2006 Fiscal Year Annual Research Report

劣条件下の混合音響信号の分離とその音声認識への利用

Research Project

Project/Area Number	06F06099
Research Institution	The University of Tokyo
Principal Investigator	広瀬啓吉東京大学, 大学院情報工学系研究科, 教授
Co-Investigator(Kenkyū-buntansha)	MOLLA Md. Khademul Islam 東京大学, 大学院情報工学系研究科, 外国人特別研究員
Keywords	劣条件音源分離 / Empirical Mode Decomposition / Hilbert変換 / Soft閾値手法 / 線形予測 / 有声 / 無声判定 / Beam Forming / コサイン変換
Research Abstract	混合音響信号の分離を中心に、下記の成果を達成した。 1.1マイクロフォンで音源分離を行う揚合、周波数-時間平面でのsparsenessを仮定した上で、スペクトルを独立成分に分解し、各音源成分への割り当てを行うが、スペクトルをフーリエ変換で得た場合、スペクトルが"にじむ"ため、良好な分離が困難であった。これに対し、Empirical Mode Decomposition (EMD)とHilbert変換により、繊細なスペクトルを求め、高精度の分離を達成した。 2.2マイクロフォンの場合は、位相差と強度差から、音源方法を推定したBeam-formingを行うが、その際、Empirical Mode Decompositionによって分割したスペクトル成分を用いることで、反射などの影響の少ない、良好なBeam-formingを達成した。 3.有効な雑音除去手法として、音声をコサイン変換して得られる係数について雑音の寄与部分を引き算する閾値法がある。特に雑音の寄与が主である係数についてのみ、雑音に比例した閾値操作を行うSoft閾値手法は、効果が高いが雑音が残るという問題があった。これに対して、EMDによって信号の周波数を幾つかの帯域に分け、雑音成分の大きな帯域で再度、閾値操作を行う手法を開発し、白色雑音を対象とした実験により、従来手法に対する優位性を示した。 4.信号を帯域分割し、帯域ごとに最適次数の線形予測を行う手法があるが、EMDを用いて基本モード成分に分割することにより、従来のWaveletによるものより高い性能(同じ次数でより少ない予測誤差)を得た。 5.音声信号をEMDにより分割した後、各成分について自己相関関数を求め、比較することにより、有声/無声の判定を行う手法を開発した。波形のパワー、自己相関等を用いる従来手法と比較して、判定性能に優れることを、実験的に確かめた。

Research Products

(4 results)

All 2007 2006

All Journal Article (4 results)

[Journal Article] Single Mixture Audio Source Separation by Subspace Decomposition of Hilbert Spectrum2007
- Author(s)
  MOLLA, Md.Khademul Islam
- Journal Title
  
  IEEE Transaction on Audio, Speech and Language Processing 15・3
  
  Pages: 893-900
[Journal Article] Linear Predictive Coding of Speech Signals with Empirical Mode Decomposition2007
- Author(s)
  MOLLA, Md.Khademul Islam
- Journal Title
  
  Proceedings of International Workshop on Non-linear Circuits and Signal Processing (NCSP'07) (CD-ROM)
  
  Pages: 405-408
[Journal Article] Voiced/Unvoiced Detection of Speech Signals using Empirical Mode Decomposition Model2007
- Author(s)
  MOLLA, Md.Khademul Islam
- Journal Title
  
  Proceedings of International Conference on Information and Communication Technology (ICICT'07) 1
  
  Pages: 311-314
[Journal Article] Speaker Identification using Dominant Features with Principal Component Analysis2006
- Author(s)
  MOLLA, Md.Khademul Islam
- Journal Title
  
  Proceedings of International Conference on Computer and Information Technology (ICCIT'06) (CD-ROM)
  
  Pages: 4

2006 Fiscal Year Annual Research Report

劣条件下の混合音響信号の分離とその音声認識への利用

Principal Investigator

広瀬 啓吉 東京大学, 大学院情報工学系研究科, 教授

Research Products

[Journal Article] Single Mixture Audio Source Separation by Subspace Decomposition of Hilbert Spectrum2007

Author(s)

Journal Title

[Journal Article] Linear Predictive Coding of Speech Signals with Empirical Mode Decomposition2007

Author(s)

Journal Title

[Journal Article] Voiced/Unvoiced Detection of Speech Signals using Empirical Mode Decomposition Model2007

Author(s)

Journal Title

[Journal Article] Speaker Identification using Dominant Features with Principal Component Analysis2006

Author(s)

Journal Title

広瀬啓吉東京大学, 大学院情報工学系研究科, 教授