• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

聴覚特性に基づくハンズフリー音声認識手法の開発

研究課題

研究課題/領域番号 15500106
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 知覚情報処理・知能ロボティクス
研究機関信州大学

研究代表者

松本 弘  信州大学, 工学部, 教授 (60005452)

研究分担者 山本 一公  信州大学, 工学部, 助手 (40324230)
研究期間 (年度) 2003 – 2004
研究課題ステータス 完了 (2004年度)
配分額 *注記
3,700千円 (直接経費: 3,700千円)
2004年度: 1,400千円 (直接経費: 1,400千円)
2003年度: 2,300千円 (直接経費: 2,300千円)
キーワードハンズフリー音声認識 / Aurora-2 database / 一般化対数 / メルLPC分析 / ウィナーフィルタ / 残響除去 / 遠隔音声認識 / フォワードマスキング / 実環境音声認識 / 隠れマルコフモデル / 動的ケプストラム / 順行マスキング / 音節モデル / 音節連鎖モデル
研究概要

(1)メルLPCスペクトルへの一般化対数とフォワードマスキングの適用
メルLPCスペクトルについて,一般化対数の冪数γ,マスキング係数,ケプストラム平均・分散正規化の有無の影響をAURORA2データベースを用いて検討を行った.その結果,メルLPC分析では,マスキングを行わず,γ=0.1の一般化ケプストラムと一般化デルタケプストラムの特徴量にケプストラム平均及び分散正規化を行った場合に最も高い認識精度を与えることを示した.
(2)メル周波数軸上のウィナーフィルタの開発
聴感特性を考慮したメルLPC分析における雑音低減処理として,メル周波数軸上のウィーナフィルタを,直線周波数軸上の入力波形から直接推定し,メル周波数軸上の自己相関領域でフィルタ処理を行う効率の良い方法を開発した.AURORA2データベースを用いて評価した結果,次数5という低次のウィーナフィルタで単語正解精度は平均30%改善された。これはSNRがOdBと-5dBの場合を除くと従来の2段ウィーナフィルタとMFCCによる認識精度を上回っている.
(3)短時間スペクトルのパワートラジェクトリー領域における残響の除去
MFCC分析におけるBPF出力のパワートラジェクトリーに対し,残響を表す指数的減衰係数,直接音対残響音比,初期反射によるカラーリング含むチャンネルゲインの3つのパラメータを含む音響伝送系の線形モデルを推定する方法を開発した.その結果、残響時間800ms程度まで,実残響音声に非常に近い短時間スペクトル系列を生成することが可能であり,またこの逆フィルタとフロアリング及び平滑化処理により,残響音声の残響を低減し,日本語数字音声の認識において単語正解精度を最大12%改善できることを明らかにした.

報告書

(3件)
  • 2004 実績報告書   研究成果報告書概要
  • 2003 実績報告書
  • 研究成果

    (12件)

すべて 2005 2004 その他

すべて 雑誌論文 (10件) 文献書誌 (2件)

  • [雑誌論文] Reverberation modeling on power spectral trajectory for distant speech recogntion2005

    • 著者名/発表者名
      H.Matsumoto, T.Takei, K.Yamamoto
    • 雑誌名

      Proc.of 2005 Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA05)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Frequency Warped Wiener Filtering for Mel-LPC Based Speech Recognition2005

    • 著者名/発表者名
      Md.Babul Islam, H.Matsumoto, K.Yamamoto
    • 雑誌名

      Proc.of International Workshop on Nonlinear Signal and Image Processing (NSIP2005)

    • NAID

      10018036975

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Reverberation modeling on power spectral trajectory for distant speech recogntion2005

    • 著者名/発表者名
      Matsumoto, T.Takei, K.Yamamoto
    • 雑誌名

      Proc.of 2005 Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA05)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Frequency Warped Wiener Filtering for Mel-LPC Based Speech Recognition2005

    • 著者名/発表者名
      Md.Babul Islam, H.Matsumoto, K.Yamamoto
    • 雑誌名

      Proc.of International Workshop on Nonlinear Signal and Image Processing (NSIP2005) 19PM2D-1

    • NAID

      10018036975

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Reverberation modeling on power spectral trajectory for distant Speech recognition2005

    • 著者名/発表者名
      H.Matsumoto, T.Takei, K Yamamoto
    • 雑誌名

      Proc.Of 2005 Joint Workshop on Hands-free Speech Communication and Microphone arrays (HSCMA05)

    • NAID

      10018037278

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Frequency Warped Wiener Filtering for Mel-LPC Based Speech Recognition2005

    • 著者名/発表者名
      Md.Babul Islam, H.Matsumoto, K Yamamoto
    • 雑誌名

      Proc.of International Workshop on Nonlinear Signal and Image Processing (NSIP2005) (5月発表予定)

    • NAID

      10018036975

    • 関連する報告書
      2004 実績報告書
  • [雑誌論文] Improved forward masking on a generalized logarithmic scale for robust speech recognition2004

    • 著者名/発表者名
      H.Matsumoto, T.Ichikawa, K.Yamamoto
    • 雑誌名

      Proc.of 18th International Congress on Acoustics

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Syllable-connected models for Japanese speech recognition2004

    • 著者名/発表者名
      K.Yamamoto, T.Ikeda, H.Matsumoto, et al.
    • 雑誌名

      Proc.of 18th International Congress on Acoustics

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Improved forward masking on a generalized logarithmic scale for robust speech recognition2004

    • 著者名/発表者名
      H.Matsumoto, T.Ichikawa, K.Yamamoto
    • 雑誌名

      Proc.of 18th International Congress on Acoustics Th4.H.4

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [雑誌論文] Syllable-connected models for Japanese speech recognition2004

    • 著者名/発表者名
      K.Yamamoto, T.Ikeda, H.Matsumoto, et al.
    • 雑誌名

      Proc.of 18th International Congress on Acoustics Fr2.H.2

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2004 研究成果報告書概要
  • [文献書誌] H.Matsumoto, T.Ichikawa, K.Yamamoto: "Improved forward masking on a generalized logarithmic scale for robust speech recognition"Proc.of 18^<th> International Congress on Acoustics. (発表予定). (2004)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] K.Yamamoto, T.Ikeda, H.Matsumoto, et al.: "Syllable-connected models for Japanese speech recognition"Proc.of 18^<th> International Congress on Acoustics. (発表予定). (2004)

    • 関連する報告書
      2003 実績報告書

URL: 

公開日: 2003-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi