• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

聴覚特性に基づくハンズフリー音声認識手法の開発

Research Project

Project/Area Number 15500106
Research InstitutionShinshu University

Principal Investigator

松本 弘  信州大学, 工学部, 教授 (60005452)

Co-Investigator(Kenkyū-buntansha) 山本 一公  信州大学, 工学部, 助手 (40324230)
Keywordsハンズフリー音声認識 / 実環境音声認識 / 一般化対数 / メルLPC分析 / ウィナーフィルタ / 残響除去 / 遠隔音声認識 / フォワードマスキング
Research Abstract

(1)メルLPCスペクトルへの一般化対数とフォワードマスキングの適用
メルLPCスペクトルについて,一般化対数の冪数γ,マスキング係数ケプストラム平均・分散正規化の有無の影響をAURORA2データベースを用いて検討を行った。その結果,メルLPC分析では,マスキングを行わず,γ=0.1の一般化ケプストラムと一般化デルタケプストラムの特徴量にケプストラム平均及び分散正規化を行った場合に最も高い認識精度を与えることを示した.
(2)メル周波数軸上のウィナーフィルタの開発
聴感特性を考慮したメルLPC分析における雑音低減処理として,メル周波数軸上のウィーナフィルタを,直線周波数軸上の入力波形から直接推定し,メル周波数軸上の自己相関領域でフィルタ処理を行う効率の良い方法を開発した.AURORA2データベースを用いて評価した結果,次数5という低次のウィーナフィルタで単語正解精度は平均30%改善された.これはSNRが0dBと-5dBの場合を除くと従来の2段ウィーナフィルタとMFCCによる認識精度を上回っている.
(3)短時間スペクトルのパワートラジェクトリー領域における残響の除去
MFCC分析におけるBPF出力のパワートラジェクトリーに対し,残響を表す指数的減退係数,直接音対残響音比,初期反射によるカラーリング含むチャンネルゲインの3つのパラメータを含む音響伝送系の線形モデルを推定する方法を開発した.その結果、残響時間800ms程度まで,実残響音声に非常に近い短時間スペクトル系列を生成することが可能であり,またこの逆フィルタとフロアリング及び平滑化処理により,残響音声の残響を低減し,日本語数字音声の認識において単語正解精度を最大12%改善できることを明らかにした.

  • Research Products

    (2 results)

All 2005

All Journal Article (2 results)

  • [Journal Article] Reverberation modeling on power spectral trajectory for distant Speech recognition2005

    • Author(s)
      H.Matsumoto, T.Takei, K Yamamoto
    • Journal Title

      Proc.Of 2005 Joint Workshop on Hands-free Speech Communication and Microphone arrays (HSCMA05)

      Pages: b9

  • [Journal Article] Frequency Warped Wiener Filtering for Mel-LPC Based Speech Recognition2005

    • Author(s)
      Md.Babul Islam, H.Matsumoto, K Yamamoto
    • Journal Title

      Proc.of International Workshop on Nonlinear Signal and Image Processing (NSIP2005) (5月発表予定)

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi