2012 Fiscal Year Annual Research Report
マルチチャンネル最小二乗平均を用いた複数話者の発話に頑健なハンズフリー音声認識
Project/Area Number |
22700169
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
王 龍標 長岡技術科学大学, 産学融合トップランナー養成センター, 産学融合特任准教授 (30510458)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | ハンズフリー音声認識 / ブラインド残響除去 / マルチチャンネルLMS / 一般化スペクトルサブトラクション / 音源分離 / 独立成分分析 |
Research Abstract |
複数音源(音楽と音声)が同時に存在する環境下で,本提案のマルチチャンネル最小二乗平均による残響除去手法を拡張し,雑音・残響を同時に正確に補正し,頑健な遠隔発話の音声認識法の研究を行う。具体的には以下の通りである。 非定常雑音である音楽を含む残響音声に対して,本提案のマルチチャンネル最小二乗平均を基づく一般化スペクトルサブトラクション(GSS)によるブラインド残響除去法とICA(独立成分分析)に基づくブラインド音源分離を組み合わせる方法を提案しました。本研究では,ICA の代表的なアルゴリズムであるFastICA を改善したEfficient FastICA (EFICA)を用いる。まず,EFICAに基づく音源分離によって音楽と音声を分離する。その分離音声から推定したインパルス応答を用いてGSSに基づく残響除去を適用し,後部残響を除去する。その後,特徴量抽出時のCMNによって初期残響の影響を除くように正規化する。この方法を評価するために,残響環境下において非定常的な雑音である音楽が背景雑音として重畳された音楽重畳音声を用いる。SNR(信号雑音比)を変化させ人工的に作成した音楽重畳音声と実環境で収録した音楽重畳音声に対してこの手法を評価した。人工環境で,全てのSNRで音源分離と残響除去の適用によって大幅な改善が見られた。従来法に比べ,SNR 20 dB,10 dB,0 dB のときのエラー削減率はそれぞれ44.2%,48.9%,24.9%を達成した。実環境で,従来法に比べ41.9%のエラー削減率を達成した。この結果はSNRが同程度である0 dB と10 dB の人工音楽重畳音声のときのエラー削減率に匹敵し,本手法は実環境で収録した音楽重畳音声に対しても有効であることが分かった。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(10 results)