2003 Fiscal Year Annual Research Report
ロバスト時変複素AR分析を用いたロバストHMM音声認識
Project/Area Number |
14550363
|
Research Institution | University of the Ryukyus |
Principal Investigator |
舟木 慶一 琉球大学, 総合情報処理センター, 講師 (30315486)
|
Keywords | 音声分析 / 複素信号処理 / ロバスト / HMM音声認識 / 時変分析 / 前向き後向き線形予測 / ELS / Output Error Method |
Research Abstract |
ロバスト時変複素AR音声分析(Time-Varying Complex AR(TV-CAR)speech analysis)の構築を行い、フロントエンドとしてHMM音声認識に適用することでロバスト音声認識を実現する研究を行っている。 時変複素AR(TV-CAR)音声分析とは、複素信号である解析信号に対して、AR係数を複素基底展開で記述する時変複素ARモデルパラメータを推定する方式であり、すでに、MMSE規範、M推定、補助変数(IV)法、GLS(一般化最小2乗法)、ELS(拡大最小2乗法)に基づく分析アルゴリズムの提案を行っている。既に、付加雑音に対してロバストな分析法として、GLS法とELS法に基づく方式の提案を行っている。GLS、ELS法とは、式誤差をARモデルで記述し、その逆フィルタ(白色化フィルタ)により式誤差を白色化することにより、雑音の影響を受けないロバスト推定を実現する方式である。一括型のアルゴリズムを用いているため、時変複素ARモデルと白色化フィルタパラメータを反復推定により推定する。GLS、ELSの導入により、付加雑音の影響を受けない比較的潰れていないスペクトルが推定できる。先に提案した前向き予測ELS法、前向き後向き予測ELS法は式誤差法であるが、今年度は、Output Error法に基づく前向き予測ELS法と前向き後向き予測ELS法の提案を行い、式誤差法に比べ、急峻なスペクトルが推定できることを示し、2003年12月にドイツのダルムシュタッドで開催されたIEEE ISSPIT2003にて発表した。さらに、提案している時変分析の応用として、IP電話のパケットロス隠蔽において時変分析を用いてパケットロス部のLPC係数を予測し、音源は残差の反復により予測する方式の提案を行った。従来のLPC分析合成に比べ若干の改良が認められた。この成果を2003年12月にイタリアのフィレンツェで開催されたMAVEBA2003にて発表した。HMM音声認識に時変複素音声分析を組み込むために、HMM音声認識ソフトHTKによるMFCCとLPCCによる学習と認識実験を行い、TV-CAR分析のHTKへの導入の検討を行った。
|