• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究

研究課題

研究課題/領域番号 19650040
研究種目

挑戦的萌芽研究

配分区分補助金
研究分野 知覚情報処理・知能ロボティクス
研究機関豊橋技術科学大学

研究代表者

中川 聖一  豊橋技術科学大学, 工学部, 教授 (20115893)

研究分担者 山本 一公  豊橋技術科学大学, 工学部, 助教 (40324230)
土屋 雅稔  豊橋技術科学大学, 工学部, 助教 (70378256)
北岡 教英  名古屋大学, 大学院・情報科学研究科, 准教授 (10333501)
王 龍標  静岡大学, 工学部, 助教 (30510458)
研究期間 (年度) 2007 – 2009
研究課題ステータス 完了 (2009年度)
配分額 *注記
3,200千円 (直接経費: 3,200千円)
2009年度: 900千円 (直接経費: 900千円)
2008年度: 1,300千円 (直接経費: 1,300千円)
2007年度: 1,000千円 (直接経費: 1,000千円)
キーワード遠隔発話 / 音声認識 / 話者認識 / マイクロフォンアレイ / ビームフォーマー / インデックス化 / ハンズフリー / 発声方向 / 音源位置 / ニューラルネットワーク / ケプストラム平均正規化 / マイクロホンアレー / 残響特性 / 伝達特性
研究概要

遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各フレームをGMMの要素に対応付け、その要素ごとにあらかじめ学習しておいたケプストラム平均正規化量を用いて正規化するもので、従来手法なら数単語の発声時間長を要していたものが、1単語の発声でも正規化の効果が確認できた。
遠隔発話の話者認識に関しては、マイクロフォンアレイによる音声強調をした音声に対して、H20年度とH21年度に開発したスペクトル情報(MFCC)と位相情報の併用法を用いた認識手法を開発した。
インデックス化に関しては、音声認識と話者認識結果の後処理として、認識結果からの場所とか人名、組織名などの固有名の抽出方法を開発した。テキスト入力ではかなり精度良く固有名を抽出できたが、遠隔発話の音声認識が非常に困難なため、満足のいく結果は得られなかった。

報告書

(3件)
  • 2009 実績報告書
  • 2008 実績報告書
  • 2007 実績報告書
  • 研究成果

    (14件)

すべて 2010 2009 2008 その他

すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (8件) 備考 (2件)

  • [雑誌論文] Distant Speech Recognition Using a Microphone Array Network2010

    • 著者名/発表者名
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • 雑誌名

      IEICE Trans. Information & System Accept

    • NAID

      10027640401

    • 関連する報告書
      2009 実績報告書
    • 査読あり
  • [雑誌論文] Auditory perception versus automatic estimation of location and orientation of an acoustic source in a real environment2010

    • 著者名/発表者名
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • 雑誌名

      ASJ Trans. Acoustical Science and Technology Accept

    • NAID

      130000727276

    • 関連する報告書
      2009 実績報告書
    • 査読あり
  • [雑誌論文] Automatic estimation of position and orientation of an acoustic source by a microphone array network2009

    • 著者名/発表者名
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • 雑誌名

      JASA Vol. 126

      ページ: 3084-3094

    • 関連する報告書
      2009 実績報告書
    • 査読あり
  • [雑誌論文] Robust speech recognition by combing short-term and long-term spectrum based position-dependent CMN with conventional CMN2008

    • 著者名/発表者名
      L.Wang, S.Nakagawa, N.Kitaoka
    • 雑誌名

      IEICE Transaction on Information and Systems Vo1.E91,No.3

      ページ: 457-466

    • 関連する報告書
      2007 実績報告書
    • 査読あり
  • [学会発表] Speaker identification by combining MFCC and phase information in noisy environments2010

    • 著者名/発表者名
      L.Wang, K.Minami, K.Yamamoto, S.Nakagawa
    • 学会等名
      Proc. ICASSP
    • 発表場所
      ダラス (アメリカ)
    • 年月日
      2010-03-16
    • 関連する報告書
      2009 実績報告書
  • [学会発表] Speaker identification/verification for reverberant speech using phase information2009

    • 著者名/発表者名
      L.Wang, S.Nakagawa
    • 学会等名
      Proc. WESPAC X 2009
    • 発表場所
      北京 (中国)(CD-ROM)
    • 年月日
      2009-09-21
    • 関連する報告書
      2009 実績報告書
  • [学会発表] 位相情報を利用した雑音・残響環境下での話者認識2009

    • 著者名/発表者名
      王龍標, 南和江, 山本一公, 中川聖一
    • 学会等名
      電子情報通信学会 第117回バイオメトリックシステムセキュリティ研究会
    • 発表場所
      東京
    • 年月日
      2009-03-23
    • 関連する報告書
      2008 実績報告書
  • [学会発表] Improvements in acoustic source's position and orientation estimation by a microphone array network2009

    • 著者名/発表者名
      A.Nakano, K.Yamamoto, S.Nakagawa
    • 学会等名
      日本音響学会 春季研究発表会
    • 発表場所
      東京
    • 年月日
      2009-03-19
    • 関連する報告書
      2008 実績報告書
  • [学会発表] Directional acoustic source position and orientation estimation approach by a microphone array network2009

    • 著者名/発表者名
      A.Nakano, K.Yamamoto, S.Nakagawa
    • 学会等名
      Proc.IEEE Workshop on DSP/SPE'09
    • 発表場所
      フロリダ(アメリカ)
    • 年月日
      2009-01-06
    • 関連する報告書
      2008 実績報告書
  • [学会発表] Blind dereverberation based on CMN and spectral subtraction by multi-channel LMS algorithm2008

    • 著者名/発表者名
      L.Wang, S.Nakagawa, N.Kitaoka
    • 学会等名
      Proc.Interspeech
    • 発表場所
      ブリスベン(オーストラリア)
    • 年月日
      2008-09-24
    • 関連する報告書
      2008 実績報告書
  • [学会発表] Sound source localization by distributed microphone network2008

    • 著者名/発表者名
      Y.Nakano, L.Wang, K.Yamamoto, S.Nakagawa
    • 学会等名
      Proc. Nonlinear Circuit and Signal Processing
    • 発表場所
      Gold Coast, Australia
    • 関連する報告書
      2007 実績報告書
  • [学会発表] Blindd ereverberation based on spectral subtraction by multi-channel LMS algorithm for distant-talking speech2008

    • 著者名/発表者名
      L.Wang, S.Nakagawa, N.Kitaoka
    • 学会等名
      Proc.LangTech
    • 発表場所
      Rome, Italy
    • 関連する報告書
      2007 実績報告書
  • [備考]

    • URL

      http://www.slp.ics.tut.ac.jp

    • 関連する報告書
      2009 実績報告書
  • [備考]

    • URL

      http://www.slp.ics.tut.ac.jp

    • 関連する報告書
      2008 実績報告書

URL: 

公開日: 2007-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi