2010 Fiscal Year Annual Research Report
マルチチャンネル最小二乗平均を用いた複数話者の発話に頑健なハンズフリー音声認識
Project/Area Number |
22700169
|
Research Institution | Shizuoka University |
Principal Investigator |
王 龍標 静岡大学, 工学部, 助教 (30510458)
|
Keywords | ハンズフリー音声認識 / ブラインド残響除去 / マルチチャンネルLMS / 一般化スペクトルサブトラクション / missing feature theory |
Research Abstract |
実環境下で音の生成を定式化し、伝送路の伝達特性を自動的に推定し、異なる残響(異なる残響時間や部屋)や異なる認識タスク(孤立単語認識と大語彙連続音声認識)に対して頑健な残響除去および残響除去の信頼性を用いる後処理を行い、高精度な残響処理を実現した。具体的には以下の通りである。 (1)スペクトルサブトラクションを用いて異なる残響特性の違いに頑健な残響補正:既に、本研究発足のための先行研究として、インパルス応答の後部残響の影響を加算性雑音と見なし、スペクトルサブトラクションを使って、残響音声とインパルス応答のパワースペクトルを用いてクリーン音声のパワースペクトルを推定する方法を提案してきた。平成22年度で、大語彙連続音声認識による評価とこの手法に用いられるパラメータ変化による影響分析や改善手法の効果を比較評価した。提案法は様々な残響環境やタスクに対して頑健な結果が得られた。 (2)ミッシングフィーチャ理論を用いる残響補正:推定するインパルス応答の長さが実際のインパルス応答長より短いことやインパルス応答のパラメータの推定誤差などの原因で、ある区間のある周波数範囲でうまく補正できない場合もあり得る。本研究では、まずスペクトル減算によって残響を補正し、前時刻の信号の影響を軽減してから、各時刻の周波数毎にSRR (Signal-to-Reverberation Ratio)を自動的に算出し、SRRの値から計算したスペクトルの信頼度を補正されたスペクトルにかけることで重み付けを行う。従来法より良い認識性能が得られた。
|