2002 Fiscal Year Annual Research Report
マイクロホンアレーを用いたハンズフリー音声認識アルゴリズムの研究
Project/Area Number |
11480077
|
Research Institution | NARA INSTITUTE OF SCIENCE AND TECHNOLOGY |
Principal Investigator |
猿渡 洋 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30324974)
|
Co-Investigator(Kenkyū-buntansha) |
李 晃伸 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80332766)
鹿野 清宏 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00263426)
|
Keywords | マイクロホンアレー / 音声認識 / ハンズフリー / 音源同定 / 超指向特性 / 雑音抑圧 / 実環境 / ビームフォーミング |
Research Abstract |
1,実環境データベースの整備: 54chマイクロホンアレーによる実音場データベース利用のためのツールを作成および整備した. 2,音源同定・ブラインド音源分離アルゴリズムの研究: 音源に関する事前情報を必要としないブラインド音源分離処理に関して,音源の位置情報を反映させることによって音源分離処理の高速化・高精度化を図るアルゴリズムを提案し,その手法の実残響環境下における性能評価を行った.その結果,多少の残響が存在しても安定に音源を分離抽出可能であることが示されたものの,フィルタ長を長くすると各狭帯域信号間における独立性の仮定が崩れ,逆に分離性能が劣化してしまうことも分かった.この問題を解決するために,新たに,周波数領域独立成分分析と時間領域独立成分分析とを直列に継続する手法(MSICA)を提案した.本手法を用いることにより、残響が非常に長い場合においても,音源を高精度に分離することが可能となった. さらに,本アルゴリズムをより安定化させるため,線形予測処理とMSICAとを組み合わせ,音質と安定性の両方を満たす手法へ拡張した.実残響下における実験の結果,反復学習の回数に依存すること無く,安定に分離フィルタを求めることができ,その性能が従来法を大きく上回っていることが示された(平均12dBの分離性能). 3,統合音声認識アルゴリズムの改良: 音源方位・HMMの状態・時間の3次元方向に対して尤度最大化を行う統合音声認識アルゴリズムに関して,複数の発話者が存在する状態に対応できるように,N-best探索法への拡張および改良を行った.特に,複数話者に関する音声認識の尤度にばらつきがある場合、それらをクラスタリングする手法を提案した.その手法に関して実機に基づく実験を多少の残響がある場合において実施した.その結果,提案手法が複数話者の音声認識に関して有効であることを実証した.
|
-
[Publications] Panikos Heracleous: "A Microphone Array-based 3-D N-best Search for Simultaneous Recognition of Multiple Sound Sources"IEICE Trans. Information and Systems. Vol.E85-D, No.6. 994-1002 (2002)
-
[Publications] Yuko Okada: "A design of adaptive beamformer based on average speech spectrum for noisy speech recognition"Acoustical Science and Technology. Vol.23, No.6. 323-327 (2002)
-
[Publications] Hiroshi Saruwatari: "Fast-Convergence Algorithm for Blind Source Separation Based on Array Signal Processing"IEICE Trans. Fundamentals. Vol.E86-A, No.3. 286-291 (2003)
-
[Publications] Tsuyoki Nishikawa: "Blind source separation of acoustic signals based on multistage ICA combining frequency-domain ICA and time-domain ICA"IEICE Trans. Fundamentals. Vol.E86-A, No.4(in printing). (2003)
-
[Publications] Tsuyoki Nishikawa: "Stable learning algorithm for blind separation of temporally correlated acoustic signals combining multistage ICA and Linear Prediction"IEICE Trans. Fundamentals. Vol.E86-A, No.8(in printing). (2003)
-
[Publications] Takanobu Nishiura: "Talker localization in a Real Acoustic Environment based on DOA Estimation and Statistical Sound Source Identification"Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2002). 2892-2895 (2002)
-
[Publications] Tsuyoki Nishikawa: "Blind Source Separation Based on Multi-Stage ICA Combining Frequency-Domain ICA and Time-Domain ICA"Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2002). 2938-2941 (2002)
-
[Publications] Hiroshi Saruwatari: "Blind Source Separation Based on Fast-Convergence Algorithm Using ICA and Beamforming for Real Convolutive Mixture"Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2002). 3097-3100 (2002)
-
[Publications] Takanobu Nishiura: "Talker Tracking Display on Autonomous Mobile Robot with a Moving Microphone Array"Proceedings of the Eighth International Conference on Auditory Display (ICAD2002). 244-247 (2002)
-
[Publications] Hiroshi Saruwatari: "Evaluation of Fast-Convergence Algorithm for Blind Source Separation of Real Convolutive Mixture"Proc. of 6th International Conference on Signal Processing (ICSP'02). 346-349 (2002)
-
[Publications] Satoshi Nakamura: "Design and Collection of Acoustic Sound Data for Hands-Free Speech Recognition and Sound Scene Understanding"Proc. of IEEE International Conference on Multimedia and Expo (ICME2002). 161-164 (2002)
-
[Publications] Tsuyoki Nishikawa: "Comparison of Time-Domain ICA, Frequency-Domain ICA and Multistage ICA"Proc. the 2002 European Signal Processing Conference (EUSIPCO2002). Vol.II. 15-18 (2002)
-
[Publications] Takanobu Nishiura: "Suitable Design of Adaptive Beamformer Based on Average Speech Spectrum for Noisy Speech Recognition"Proc. of 7th International Conference on Spoken Language Processing (ICSLP2002). 1789-1792 (2002)
-
[Publications] Tsuyoki Nishikawa: "Stable Learning Algorithm for Blind Separation of Temporally Correlated Signals Combining Multistage ICA and Linear Prediction"Proc. of Fourth International Symposium on Independent Component Analysis and Blind Signal Separation. No.P2A-05(in printing). (2003)
-
[Publications] Rajkishore Prasad: "A Fixed-Point ICA Algorithm for Convoluted Speech Signal Separation"Proc. of Fourth International Symposium on Independent Component Analysis and Blind Signal Separation. No.P3A-07(in printing). (2003)
-
[Publications] Hiroshi Saruwatari: "(Invited Paper) Blind Source Separation of Acoustic Signals Based on Multistage Independent Component Analysis"Proc. of Summer Meeting of Acoustical Society of Korea. 9-14 (2002)