• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

実環境バイモーダル音声認識共通評価基盤の構築

研究課題

研究課題/領域番号 19700163
研究機関名古屋大学

研究代表者

宮島 千代美  名古屋大学, 大学院・情報科学研究科, 助教 (90335092)

キーワードバイモーダル音声認識 / 雑音下音声認識 / 音声認識性能評価 / データベース / 近赤外映像 / 自動車内雑音
研究概要

昨年度までに収録・整備した音声・映像データに対して雑音を重畳し,特徴抽出と認識性能評価基準となるベースラインの認識実験を進め,データベース配布の準備を行った.音声の雑音としては,ドライバの襟元に装着した無指向性マイクで収録した市街地走行中の車内雑音を室内収録音声に重畳し,画像の雑音としては,車載カメラで撮影した映像から算出したガンマ値の変動を元に,室内で撮影したカラーおよび近赤外映像の各画像フレームに対してガンマ変換を行うことで雑音環境を模擬した.ベースラインの音声特徴量は,メルフィルタバンクケプストラム係数とその動的特徴量,画像特徴量は,口唇画像の約1000次元のベクトルから抽出した寄与率約85%の主成分得点とその動的特徴量とした.音声と映像の特徴量はマルチストリームの隠れマルコフモデルで初期統合に基づいてモデル化し,ストリーム重みを変化させ,最も認識性能が高くなるストリーム重みを選択した.データベースの利用者は,このベースラインの認識率と比較することで,提案するバイモーダル音声認識の特徴抽出手法や認識手法の性能を評価できる仕組みとなっている.雑音の重畳や,音声・画像の特徴抽出のプログラム,および隠れマルコフモデルツールキットに準じた認識評価用スクリプトを作成し,マニュアルや評価用バイモーダルデータと併せて,DVDメディアにて配布する準備が整った.これらは,学会等を通じてさまざまな研究機関に配布される予定である.

  • 研究成果

    (5件)

すべて 2010 2009

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件) 図書 (1件)

  • [雑誌論文] CENSREC-1-C : An evaluation framework for voice activity detection under noisy environments2009

    • 著者名/発表者名
      N.Kitaoka, T.Yamada, S.Tsuge, C.Miyajima, K.Yamamoto, T.Nishiura, M.Nakayama, Y.Denda, M.Fujimoto, T.Takiguchi, S.Tamura, S.Matsuda, T.Ogawa, S.Kuroiwa, K.Takeda, S.Nakamura
    • 雑誌名

      Acoustical Science and Technology 30

      ページ: 363-371

    • 査読あり
  • [学会発表] CENSREC-1-AV:マルチモーダル音声認識コーパスの構築2010

    • 著者名/発表者名
      田村哲嗣, 宮島千代美, 北岡教英, 武田一哉, 山田武志, 滝口哲也, 柘植覚, 山本一公, 西浦敬信, 中山雅人, 傳田遊亀, 藤本雅清, 松田繁樹小川哲司, 黒岩眞吾, 中村哲
    • 学会等名
      2010年日本音響学会春季研究発表会
    • 発表場所
      電気通信大学(東京都)
    • 年月日
      2010-03-08
  • [学会発表] 複数音響モデルからの最適選択による音声認識2009

    • 著者名/発表者名
      伊藤新, 原直, 宮島千代美, 北岡教英, 武田一哉
    • 学会等名
      2009年電気関係学会東海支部連合大会
    • 発表場所
      愛知工業大学(愛知県)
    • 年月日
      2009-09-10
  • [学会発表] 自動車運転コーパスにおける行動観測信号の統合と利用2009

    • 著者名/発表者名
      武田一哉, 尾崎晃, マルタルーカス, 西脇由博, 宮島千代美, 北岡教英
    • 学会等名
      2009年マルチメディア,分散,協調とモバイルシンポジウム
    • 発表場所
      杉乃井ホテル(大分県)
    • 年月日
      2009-07-08
  • [図書] Computer Processing of Asian Spoken Languages (Section 4.10)(S. Itahashi, C.Y. Tseng eds., Multimodal Speech Corpora for Robust Japanese Speech Recognition in Noisy Environments)2010

    • 著者名/発表者名
      M.Tamura, C.Mivajima
    • 総ページ数
      5
    • 出版者
      Japanese Writer's House

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi