• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2011 年度 実績報告書

マルチチャンネル最小二乗平均を用いた複数話者の発話に頑健なハンズフリー音声認識

研究課題

研究課題/領域番号 22700169
研究機関静岡大学

研究代表者

王 龍標  静岡大学, 工学部, 助教 (30510458)

キーワードハンズフリー音声認識 / ブラインド残響除去 / マルチチャンネルLMS / 一般化スペクトルサブトラクション / missing feature theory
研究概要

遠隔環境下で音の生成を定式化し、伝送路の伝達特性を自動的に推定し、様々な残響環境に対して頑健な残響除去および残響除去の信頼性を用いる後処理を行い、高精度な残響処理を実現した。また、パワーSSの代わりに,一般化SSを用いたブラインド残響除去法を提案し,パワーSSに基づくブラインド残響除去法に対してエラー率が大幅に削減できた。さらに、実環境(会議室)の残響を含んだ音声を収録し評価に用いた。今までの人工残響音声と同程度のエラー削減率を達成した。具体的には以下の通りである。
(1)一般化SSによる残響除去:先行研究において、任意の指数パラメータを与える一般化SSはパワーSSより効果的な雑音抑圧法であることが示されている。本研究では、一般化SSを用いて後部残響を除去する方法を提案した。一般化SSは残響環境下において、パワーSSと従来法より大幅な性能を改善した。
(2)残響と定常雑音の同時補正:本研究では、加算性雑音も考慮する。加算性雑音が定常雑音の場合、まず、文先頭の無音区間を利用し加算性雑音のスペクトルを推定し、加算性雑音を除去する。次に、上記の方法を用いて残りの残響を補正することによって、二段階で雑音や残響を補正する。
(3)実環境での評価:実環境の残響を含んだマルチチャンネル残響音声を収録し、残響除去法の評価に用いた。実験の結果として,発話単位CMNを利用しただけの場合と比べて,残響除去法を適用することで、使用したチャンネルの組み合わせ全てに対して大きな性能改善が見られた。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

交付申請書に記載した「研究の目的」の定常雑音と残響の同時除去を実現して、人工残響音声と実環境で収録した音声を評価した。さらに、交付申請書に予定してない一般化SSを用いて後部残響を除去する方法を提案した。

今後の研究の推進方策

実環境における複数音源の残響と雑音の同時補正
各時刻で音源数の自動推定および残響音声の自動検出によって、雑音と複数音源からの残響が同時に存在しても、厳密に定式化するように提案法を拡張する。ある時刻では、ある音源だけから発話していることを仮定すると、音源からマイクロフォンまでの伝達特性が推定できる。本研究では、雑音除去と各時刻で音源数の自動推定によって、残響の特性をブラインド的に推定する。複数の音源からマイクロフォンまでの伝達特性を利用し、提案する残響処理手法により複数音源の残響の補正を同時に行うことができる。

  • 研究成果

    (13件)

すべて 2012 2011 その他

すべて 雑誌論文 (2件) 学会発表 (9件) 図書 (1件) 備考 (1件)

  • [雑誌論文] Dereverberation and Denoising Based on Generalized Spectral Subtraction by Multi-channel LMS Algorithm Using a Small-scale Microphone Array2012

    • 著者名/発表者名
      L. Wang, K. Odani and A. Kai
    • 雑誌名

      Eurasip Journal on Advanced in Signal Processing

      巻: 2012

    • DOI

      DOI:10.1186/1687-6180-2012-12

  • [雑誌論文] Identification of a distant speaker and its robustness2011

    • 著者名/発表者名
      Y. Jiang, Z. Tang and L. Wang
    • 雑誌名

      Chinese Journal of Electronics

      巻: Vol.20, No.2 ページ: 278-282

    • URL

      http://www.ejournal.org.cn/Jweb_cje/EN/abstract/abstract1109.shtml

  • [学会発表] 音声認識誤り率の推定を用いたPOMDPモデルの構築の検討2012

    • 著者名/発表者名
      西島祥悟、甲斐充彦、小暮悟、王龍標
    • 学会等名
      第64回言語・音声理解と対話処理研究会
    • 発表場所
      東京大学本郷キャンパス(東京)
    • 年月日
      2012-03-26
  • [学会発表] 話者や発話固有の特徴の違いに注目した認識性能の個人差の要因分析2012

    • 著者名/発表者名
      赤尾佳彦、王龍標、甲斐充彦
    • 学会等名
      日本音響学会2012年春季研究発表会講演論文集
    • 発表場所
      神奈川大学横浜キャンパス(横浜)
    • 年月日
      2012-03-15
  • [学会発表] SS法に基づくブラインド残響除去法の実環境音声における評価2012

    • 著者名/発表者名
      小谷恭平、王龍標、甲斐充彦
    • 学会等名
      日本音響学会2012年春季研究発表会講演論文集
    • 発表場所
      神奈川大学横浜キャンパス(横浜)
    • 年月日
      2012-03-13
  • [学会発表] 単語断片の候補選択が可能な音声入力インタフェースの実装と評価2011

    • 著者名/発表者名
      張用起、甲斐充彦、王龍標
    • 学会等名
      音声言語情報処理研究会
    • 発表場所
      芝浦工業大学(東京)
    • 年月日
      2011-12-20
  • [学会発表] Blind Dereverberation Based on Generalized Spectral Subtraction by Multi-channel LMS Algorithm2011

    • 著者名/発表者名
      K.Odani, L.Wang, A.Kai
    • 学会等名
      APSIPA ASC 2011
    • 発表場所
      Grand New World Hotel Xi'an (Xi'an, China)
    • 年月日
      2011-10-20
  • [学会発表] 複数の人工室内インパルス応答を用いた残響モデルの利用による遠隔発話話者認識2011

    • 著者名/発表者名
      王龍標、岸良樹、張兆峰、甲斐充彦
    • 学会等名
      日本音響学会2011年秋季研究発表会講演論文集
    • 発表場所
      島根大学(島根県)
    • 年月日
      2011-09-21
  • [学会発表] SS法に基づくブラインド残響除去法による雑音残響下音声認識2011

    • 著者名/発表者名
      小谷恭平、王龍標、甲斐充彦
    • 学会等名
      日本音響学会2011年秋季研究発表会講演論文集
    • 発表場所
      島根大学(島根県)
    • 年月日
      2011-09-21
  • [学会発表] Evaluation of hands-free large vocabulary continuous speech recognition by blind dereverberation based on spectral subtraction by multi-channel LMS algorithm2011

    • 著者名/発表者名
      L.Wang, K.Odani, A.Kai
    • 学会等名
      International conference on Text, Speech and Dialogue 2011
    • 発表場所
      University of West Bohemia (Pilsen, Czech Republic)
    • 年月日
      2011-09-05
  • [学会発表] 遠隔音声認識のためのマルチチャンネルLMSアルゴリズムによる残響除去法の改善2011

    • 著者名/発表者名
      小谷恭平、王龍標、甲斐充彦
    • 学会等名
      電子情報通信学会技術研究報告
    • 発表場所
      立命館大学大阪キャンパス(大阪府)
    • 年月日
      2011-05-12
  • [図書] (章節)"Evaluation of hands-free large vocabulary continuous speech recognition by blind dereverberation based on spectral subtraction by multi-channel LMS algorithm" in LNAI 6836, Text, Speech and Dialogue2011

    • 著者名/発表者名
      L.Wang, K.Odani, A.Kai
    • 総ページ数
      8
    • 出版者
      Springer-Verlag Verlin Heidelberg
  • [備考]

    • URL

      http://ssp.sys.eng.shizuoka.ac.jp/wang-j.html

URL: 

公開日: 2013-06-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi