• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

実世界環境下における遠隔発話の音声認識と話者認識およびインデックス化に関する研究

Research Project

Project/Area Number 19650040
Research Category

Grant-in-Aid for Challenging Exploratory Research

Allocation TypeSingle-year Grants
Research Field Perception information processing/Intelligent robotics
Research InstitutionToyohashi University of Technology

Principal Investigator

中川 聖一  Toyohashi University of Technology, 工学部, 教授 (20115893)

Co-Investigator(Kenkyū-buntansha) 山本 一公  豊橋技術科学大学, 工学部, 助教 (40324230)
土屋 雅稔  豊橋技術科学大学, 工学部, 助教 (70378256)
北岡 教英  名古屋大学, 大学院・情報科学研究科, 准教授 (10333501)
王 龍標  静岡大学, 工学部, 助教 (30510458)
Project Period (FY) 2007 – 2009
Project Status Completed (Fiscal Year 2009)
Budget Amount *help
¥3,200,000 (Direct Cost: ¥3,200,000)
Fiscal Year 2009: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2008: ¥1,300,000 (Direct Cost: ¥1,300,000)
Fiscal Year 2007: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords遠隔発話 / 音声認識 / 話者認識 / マイクロフォンアレイ / ビームフォーマー / インデックス化 / ハンズフリー / 発声方向 / 音源位置 / ニューラルネットワーク / ケプストラム平均正規化 / マイクロホンアレー / 残響特性 / 伝達特性
Research Abstract

遠隔発話の音声認識に関しては、H20年度とH21年度に開発した話者の位置と発声方向の同定方法を用いた認識手法を開発した。つまり、音源位置の同定に基づいて、マイクロフォンアレイのビームフォーマーによって音声を強調し、発声方向の向きの同定によって、発声語彙を推定・制限する方法により認識率を高めた。さらに、残響補正の基本的な手法であるケプストラム平均正規化法を、短時間の発声によりオンラインで適用できる技術を開発した。これは、混合ガウス分布(GMM)モデルにより音声をモデル化しておき、入力音声の各フレームをGMMの要素に対応付け、その要素ごとにあらかじめ学習しておいたケプストラム平均正規化量を用いて正規化するもので、従来手法なら数単語の発声時間長を要していたものが、1単語の発声でも正規化の効果が確認できた。
遠隔発話の話者認識に関しては、マイクロフォンアレイによる音声強調をした音声に対して、H20年度とH21年度に開発したスペクトル情報(MFCC)と位相情報の併用法を用いた認識手法を開発した。
インデックス化に関しては、音声認識と話者認識結果の後処理として、認識結果からの場所とか人名、組織名などの固有名の抽出方法を開発した。テキスト入力ではかなり精度良く固有名を抽出できたが、遠隔発話の音声認識が非常に困難なため、満足のいく結果は得られなかった。

Report

(3 results)
  • 2009 Annual Research Report
  • 2008 Annual Research Report
  • 2007 Annual Research Report
  • Research Products

    (14 results)

All 2010 2009 2008 Other

All Journal Article (4 results) (of which Peer Reviewed: 4 results) Presentation (8 results) Remarks (2 results)

  • [Journal Article] Distant Speech Recognition Using a Microphone Array Network2010

    • Author(s)
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • Journal Title

      IEICE Trans. Information & System Accept

    • NAID

      10027640401

    • Related Report
      2009 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Auditory perception versus automatic estimation of location and orientation of an acoustic source in a real environment2010

    • Author(s)
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • Journal Title

      ASJ Trans. Acoustical Science and Technology Accept

    • NAID

      130000727276

    • Related Report
      2009 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Automatic estimation of position and orientation of an acoustic source by a microphone array network2009

    • Author(s)
      A.Y.Nakano, S.Nakagawa, K.Yamamoto
    • Journal Title

      JASA Vol. 126

      Pages: 3084-3094

    • Related Report
      2009 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Robust speech recognition by combing short-term and long-term spectrum based position-dependent CMN with conventional CMN2008

    • Author(s)
      L.Wang, S.Nakagawa, N.Kitaoka
    • Journal Title

      IEICE Transaction on Information and Systems Vo1.E91,No.3

      Pages: 457-466

    • Related Report
      2007 Annual Research Report
    • Peer Reviewed
  • [Presentation] Speaker identification by combining MFCC and phase information in noisy environments2010

    • Author(s)
      L.Wang, K.Minami, K.Yamamoto, S.Nakagawa
    • Organizer
      Proc. ICASSP
    • Place of Presentation
      ダラス (アメリカ)
    • Year and Date
      2010-03-16
    • Related Report
      2009 Annual Research Report
  • [Presentation] Speaker identification/verification for reverberant speech using phase information2009

    • Author(s)
      L.Wang, S.Nakagawa
    • Organizer
      Proc. WESPAC X 2009
    • Place of Presentation
      北京 (中国)(CD-ROM)
    • Year and Date
      2009-09-21
    • Related Report
      2009 Annual Research Report
  • [Presentation] 位相情報を利用した雑音・残響環境下での話者認識2009

    • Author(s)
      王龍標, 南和江, 山本一公, 中川聖一
    • Organizer
      電子情報通信学会 第117回バイオメトリックシステムセキュリティ研究会
    • Place of Presentation
      東京
    • Year and Date
      2009-03-23
    • Related Report
      2008 Annual Research Report
  • [Presentation] Improvements in acoustic source's position and orientation estimation by a microphone array network2009

    • Author(s)
      A.Nakano, K.Yamamoto, S.Nakagawa
    • Organizer
      日本音響学会 春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      2009-03-19
    • Related Report
      2008 Annual Research Report
  • [Presentation] Directional acoustic source position and orientation estimation approach by a microphone array network2009

    • Author(s)
      A.Nakano, K.Yamamoto, S.Nakagawa
    • Organizer
      Proc.IEEE Workshop on DSP/SPE'09
    • Place of Presentation
      フロリダ(アメリカ)
    • Year and Date
      2009-01-06
    • Related Report
      2008 Annual Research Report
  • [Presentation] Blind dereverberation based on CMN and spectral subtraction by multi-channel LMS algorithm2008

    • Author(s)
      L.Wang, S.Nakagawa, N.Kitaoka
    • Organizer
      Proc.Interspeech
    • Place of Presentation
      ブリスベン(オーストラリア)
    • Year and Date
      2008-09-24
    • Related Report
      2008 Annual Research Report
  • [Presentation] Sound source localization by distributed microphone network2008

    • Author(s)
      Y.Nakano, L.Wang, K.Yamamoto, S.Nakagawa
    • Organizer
      Proc. Nonlinear Circuit and Signal Processing
    • Place of Presentation
      Gold Coast, Australia
    • Related Report
      2007 Annual Research Report
  • [Presentation] Blindd ereverberation based on spectral subtraction by multi-channel LMS algorithm for distant-talking speech2008

    • Author(s)
      L.Wang, S.Nakagawa, N.Kitaoka
    • Organizer
      Proc.LangTech
    • Place of Presentation
      Rome, Italy
    • Related Report
      2007 Annual Research Report
  • [Remarks]

    • URL

      http://www.slp.ics.tut.ac.jp

    • Related Report
      2009 Annual Research Report
  • [Remarks]

    • URL

      http://www.slp.ics.tut.ac.jp

    • Related Report
      2008 Annual Research Report

URL: 

Published: 2007-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi