研究概要 |
(1)メルLPCスペクトルへの一般化対数とフォワードマスキングの適用 メルLPCスペクトルについて,一般化対数の冪数γ,マスキング係数,ケプストラム平均・分散正規化の有無の影響をAURORA2データベースを用いて検討を行った.その結果,メルLPC分析では,マスキングを行わず,γ=0.1の一般化ケプストラムと一般化デルタケプストラムの特徴量にケプストラム平均及び分散正規化を行った場合に最も高い認識精度を与えることを示した. (2)メル周波数軸上のウィナーフィルタの開発 聴感特性を考慮したメルLPC分析における雑音低減処理として,メル周波数軸上のウィーナフィルタを,直線周波数軸上の入力波形から直接推定し,メル周波数軸上の自己相関領域でフィルタ処理を行う効率の良い方法を開発した.AURORA2データベースを用いて評価した結果,次数5という低次のウィーナフィルタで単語正解精度は平均30%改善された。これはSNRがOdBと-5dBの場合を除くと従来の2段ウィーナフィルタとMFCCによる認識精度を上回っている. (3)短時間スペクトルのパワートラジェクトリー領域における残響の除去 MFCC分析におけるBPF出力のパワートラジェクトリーに対し,残響を表す指数的減衰係数,直接音対残響音比,初期反射によるカラーリング含むチャンネルゲインの3つのパラメータを含む音響伝送系の線形モデルを推定する方法を開発した.その結果、残響時間800ms程度まで,実残響音声に非常に近い短時間スペクトル系列を生成することが可能であり,またこの逆フィルタとフロアリング及び平滑化処理により,残響音声の残響を低減し,日本語数字音声の認識において単語正解精度を最大12%改善できることを明らかにした.
|