• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

実環境バイモーダル音声認識共通評価基盤の構築

Research Project

Project/Area Number 19700163
Research InstitutionNagoya University

Principal Investigator

宮島 千代美  Nagoya University, 大学院・情報科学研究科, 助教 (90335092)

Keywordsバイモーダル音声認識 / 雑音下音声認識 / 音声認識性能評価 / データベース / 近赤外映像 / 自動車内雑音
Research Abstract

昨年度までに収録・整備した音声・映像データに対して雑音を重畳し,特徴抽出と認識性能評価基準となるベースラインの認識実験を進め,データベース配布の準備を行った.音声の雑音としては,ドライバの襟元に装着した無指向性マイクで収録した市街地走行中の車内雑音を室内収録音声に重畳し,画像の雑音としては,車載カメラで撮影した映像から算出したガンマ値の変動を元に,室内で撮影したカラーおよび近赤外映像の各画像フレームに対してガンマ変換を行うことで雑音環境を模擬した.ベースラインの音声特徴量は,メルフィルタバンクケプストラム係数とその動的特徴量,画像特徴量は,口唇画像の約1000次元のベクトルから抽出した寄与率約85%の主成分得点とその動的特徴量とした.音声と映像の特徴量はマルチストリームの隠れマルコフモデルで初期統合に基づいてモデル化し,ストリーム重みを変化させ,最も認識性能が高くなるストリーム重みを選択した.データベースの利用者は,このベースラインの認識率と比較することで,提案するバイモーダル音声認識の特徴抽出手法や認識手法の性能を評価できる仕組みとなっている.雑音の重畳や,音声・画像の特徴抽出のプログラム,および隠れマルコフモデルツールキットに準じた認識評価用スクリプトを作成し,マニュアルや評価用バイモーダルデータと併せて,DVDメディアにて配布する準備が整った.これらは,学会等を通じてさまざまな研究機関に配布される予定である.

  • Research Products

    (5 results)

All 2010 2009

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results) Book (1 results)

  • [Journal Article] CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments2009

    • Author(s)
      N.Kitaoka, T.Yamada, S.Tsuge, C.Miyajima, K.Yamamoto, T.Nishiura, M.Nakayama, Y.Denda, M.Fujimoto, T.Takiguchi, S.Tamura, S.Matsuda, T.Ogawa, S.Kuroiwa, K.Takeda, S.Nakamura
    • Journal Title

      Acoustical Science and Technology 30

      Pages: 363-371

    • Peer Reviewed
  • [Presentation] CENSREC-1-AV:マルチモーダル音声認識コーパスの構築2010

    • Author(s)
      田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹小川哲司, 黒岩眞吾, 中村哲
    • Organizer
      2010年日本音響学会春季研究発表会
    • Place of Presentation
      電気通信大学(東京都)
    • Year and Date
      2010-03-08
  • [Presentation] 複数音響モデルからの最適選択による音声認識2009

    • Author(s)
      伊藤新, 原直, 宮島千代美, 北岡教英, 武田一哉
    • Organizer
      2009年電気関係学会東海支部連合大会
    • Place of Presentation
      愛知工業大学(愛知県)
    • Year and Date
      2009-09-10
  • [Presentation] 自動車運転コーパスにおける行動観測信号の統合と利用2009

    • Author(s)
      武田一哉, 尾崎晃, マルタルーカス, 西脇由博, 宮島千代美, 北岡教英
    • Organizer
      2009年マルチメディア,分散,協調とモバイルシンポジウム
    • Place of Presentation
      杉乃井ホテル(大分県)
    • Year and Date
      2009-07-08
  • [Book] Computer Processing of Asian Spoken Languages (Section 4.10)(S. Itahashi, C.Y. Tseng eds., Multimodal Speech Corpora for Robust Japanese Speech Recognition in Noisy Environments)2010

    • Author(s)
      M.Tamura, C.Mivajima
    • Total Pages
      5
    • Publisher
      Japanese Writer's House

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi