• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

音声・画像のマルチモーダル情報協調・情報統合を用いた音声認識の高度化

Research Project

Project/Area Number 18700175
Research InstitutionGifu University

Principal Investigator

田村 哲嗣  Gifu University, 工学部, 助教 (10402215)

Keywords音声認識 / マルチモーダル / マイクロフォンアレー / カメラアレー / 情報協調 / 情報統合
Research Abstract

本研究では,視覚と聴覚の情報協調・情報統合による音声認知機構の工学的実現を目的とし,音声と発声時の口唇動画像を用いる「マルチモーダル音声認識」において,複数個のマイク(マイクロフォンアレー)と複数台のカメラ(カメラアレー)を用いた「情報協調」および「情報統合」の研究を行っている。
「情報協調」では,マイクロフォンアレーから得られた情報をカメラアレーの制御に,同様にしてカメラの情報をマイクロフォンの制御に,相互・相補的に用いることで,それぞれの情報の精度向上を目指している。後述する情報統合の検討を先行させたため,現在は,情報協調を行うアルゴリズムの構築・実装を行っている。「情報統合」においては,マイクロフォンアレー出力音声を用いた音声認識結果と,カメラアレーによる話者の口唇映像を用いた「読唇」結果を統合する。この基礎的研究として,それぞれの認識結果(単語グラフ出力)をコンフユージョンネットワークに変換し,これを統合する手法の検討を行った。1カメラ1マイクによるデータを用いて認識性能を評価したところ,雑音下において一定の音声認識性能の改善がみられ,その有効性が確認された。一方,このコンフュージョンネットワーク統合手法を効果的に適用するには,単語グラフを改良する必要があり,これには音声認識デコーダの拡張を要する。そこで,昨年度から続いて構築・改良を行っている新しい音声認識デコーダに,コンフユージョンネットワークのための機構を取り入れ,情報統合手法のさらなる向上を図っていく予定である。

  • Research Products

    (3 results)

All 2007

All Presentation (3 results)

  • [Presentation] 音声と画像のconfusion networkを用いたマルチモーダル音声認識2007

    • Author(s)
      上澤泰, 田村哲嗣, 速水悟
    • Organizer
      電子情報通信学会2007年11月音声研究会
    • Place of Presentation
      千葉工業大学
    • Year and Date
      2007-11-28
  • [Presentation] オブジェクト指向に基づく音声認識デコーダの試作2007

    • Author(s)
      田村哲嗣, 速水悟
    • Organizer
      日本音響学会2007年秋季研究発表会
    • Place of Presentation
      山梨大学
    • Year and Date
      2007-09-20
  • [Presentation] 音声と画像のCNCによるマルチモーダル音声認識の検討2007

    • Author(s)
      上澤泰, 田村哲嗣, 速水悟
    • Organizer
      日本音響学会2007年秋季研究発表会
    • Place of Presentation
      山梨大学
    • Year and Date
      2007-09-20

URL: 

Published: 2010-02-04   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi