本年度は、(1)実環境から音響情報の取得に分散配置型多点受音マイクロホン収録系を用い、同定すべきシーン内の音響情報を様々な場所で観測することにより、よりロバストな音声認識を行うための技術および、(2)様々な音が混合された信号から所望の音のみを取り出すための技術の研究を行った。 (1)の研究は、残響や妨害雑音のある劣悪な音響環境下で発声された音声を様々な地点で観測し、その中から何らかの基準に従って信頼度の高い情報を得ることにより、高精度な音声認識を行おうというものである。本研究では、遠隔音声の認識手法として、ある観測点での室内伝達特性を畳み込んだ音声を用いて学習した遠隔音声モデルを複数地点分用意し用いるとともに、複数チャネル情報の統合/選択手法として、特徴量レベル及び尤度レベルでの統合/選択手法を提案した。実験により、接話型マイクロホンを用いる現在の標準的な音声認識システムでは室内平均で認識精度が約32%であったのに対して、提案手法では最高で約85%の結果が得られ、その有効性が確認された。 また、(2)の研究では、情報量基準によるブラインド音源分離法で問題となる順序不定・ゲイン不定の問題を、マイクロホンアレイの指向特性を利用して解決する手法を提案した。本手法の有効性を確認するため、可変残響室において収録したデータを用いて信号分離実験を行ったところ、残響時間が151msの場合で9.1dBのNoise Reduction Rateが得られた。また、残響時間が長くなるにつれて、回復性能は劣化し、残響時間が303msの場合には、6.9dBであった。これらの結果は、池田らによって提案されている振幅包絡の連続性を用いる手法と比較して、残響時間が長い場合は同等、短い場合はよりよいものであった。
|