音声認識技術における主要な課題の一つは、変化する加算性および乗算性雑音環境に対する頑健性の向上である。音声認識における一般的な特徴量抽出は、まず数十ミリ秒ごとに短時間スペクトルを求め、フィルタバンクによりスペクトルの微細構造を取り除き、対数スペクトル領域でコサイン変換することにより行われる。提案する目的音GMMスペクトル補正法(TGSC法)では、雑音の補償操作を雑音の定式化に最も適した短時間スペクトル領域で行い、補償のためのパラメタ推定に音声の性質を表すのに最も適した音声特徴量に対する最尤基準を用いるアプローチをとる。本年度の研究では、音声特徴量抽出過程において補正を行うタイミングについて検討を行った。ヒトの聴覚系において、周波数分析器として働く蝸牛管へ中枢側から多数の神経接続があり、感度調整を行うフィードバック機能を果たしていると考えられている。 TGSCは統計的音声認識の枠組上のアルゴリズムであるが、処理ブロックの構成においてそのようなヒトの聴覚系との機能的相同性があり、その効果や問題点を分析することは高性能なヒトの聴覚系を理解し、その工学的な応用を行う上で重要と考えられる。またGMMをもとに最尤推定を行うTGSC法の派生と関連して、GMMの最尤基準により推定された変換パラメタを、音声の発話者の特徴とみなす手法について検討を行った。話者による声質の違いは一種の伝達チャネルの雑音とみなすことが出来、その特徴から発話者の年齢を推定することができる。この場合識別器としてサポートベクター回帰が優れていることを示した。
|