• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究

研究課題

研究課題/領域番号 19650040
研究機関豊橋技術科学大学

研究代表者

中川 聖一  豊橋技術科学大学, 工学部, 教授 (20115893)

研究分担者 山本 一公  豊橋技術科学大学, 工学部, 助教 (40324230)
土屋 雅稔  豊橋技術科学大学, 工学部, 助教 (70378256)
北岡 教英  名古屋大学, 大学院・情報科学研究科, 准教授 (10333501)
王 龍標  静岡大学, 工学部, 助教 (30510458)
キーワード遠隔発話 / 音声認識 / 話者認識 / マイクロフォンアレイ / ビームフォーマー / インデックス化 / ハンズフリー
研究概要

遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各フレームをGMMの要素に対応付け、その要素ごとにあらかじめ学習しておいたケプストラム平均正規化量を用いて正規化するもので、従来手法なら数単語の発声時間長を要していたものが、1単語の発声でも正規化の効果が確認できた。
遠隔発話の話者認識に関しては、マイクロフォンアレイによる音声強調をした音声に対して、H20年度とH21年度に開発したスペクトル情報(MFCC)と位相情報の併用法を用いた認識手法を開発した。
インデックス化に関しては、音声認識と話者認識結果の後処理として、認識結果からの場所とか人名、組織名などの固有名の抽出方法を開発した。テキスト入力ではかなり精度良く固有名を抽出できたが、遠隔発話の音声認識が非常に困難なため、満足のいく結果は得られなかった。

  • 研究成果

    (6件)

すべて 2010 2009 その他

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (2件) 備考 (1件)

  • [雑誌論文] Distant Speech Recognition Using a Microphone Array Network2010

    • 著者名/発表者名
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • 雑誌名

      IEICE Trans. Information & System Accept

    • 査読あり
  • [雑誌論文] Auditory perception versus automatic estimation of location and orientation of an acoustic source in a real environment2010

    • 著者名/発表者名
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • 雑誌名

      ASJ Trans. Acoustical Science and Technology Accept

    • 査読あり
  • [雑誌論文] Automatic estimation of position and orientation of an acoustic source by a microphone array network2009

    • 著者名/発表者名
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • 雑誌名

      JASA Vol. 126

      ページ: 3084-3094

    • 査読あり
  • [学会発表] Speaker identification by combining MFCC and phase information in noisy environments2010

    • 著者名/発表者名
      L.Wang, K.Minami, K.Yamamoto, S.Nakagawa
    • 学会等名
      Proc. ICASSP
    • 発表場所
      ダラス (アメリカ)
    • 年月日
      2010-03-16
  • [学会発表] Speaker identification/verification for reverberant speech using phase information2009

    • 著者名/発表者名
      L.Wang, S.Nakagawa
    • 学会等名
      Proc. WESPAC X 2009
    • 発表場所
      北京 (中国)(CD-ROM)
    • 年月日
      2009-09-21
  • [備考]

    • URL

      http://www.slp.ics.tut.ac.jp

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi