• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

環境に応じたマルチモーダル音声認識の構成最適化手法の研究

Research Project

Project/Area Number 25730109
Research InstitutionGifu University

Principal Investigator

田村 哲嗣  岐阜大学, 工学部, 助教 (10402215)

Project Period (FY) 2013-04-01 – 2016-03-31
Keywords音声認識 / マルチモーダル情報処理 / 読唇 / 最適化 / 実環境
Outline of Annual Research Achievements

本研究は、音声と画像を用いるマルチモーダル音声認識(AVSR)において、特徴量抽出、モデル化、それらの統合法などの要素技術を、環境やタスクに応じて最適化する「構成最適化法」の確立を目指している。この取り組みを通じ、最終的に、AVSRの実用化を目標としている。
本年度は、第一に、複数の元情報を組み合わせ深層学習を適用して得られる画像特徴量(DBVF)および音響特徴量(DBAF)に対する検討を行った。まず、新たな画像情報を用いることによる性能改善を確認した。さらに、マルチモーダル音声認識での深層学習の利用法について詳細な検討を行った。加えて、これら特徴量とAVSRのためのモデル適応を併用することで、雑音下で頑健な認識スキームを実現した。第二に、AVSRの認識モデルにおいて、従来の重み付け最適化法を一般化し、重みを一意に決定することなく、音声と画像の認識モデルの出力を統合するアルゴリズムを開発した。実験により、環境に応じて適切にモデル出力を統合し、高い認識精度を実現できることを確認した。第三に、実環境での適用を念頭に、新たにDBAF・DBVFとサポートベクターマシンによる音声区間検出手法を開発した。従来法と比較したところ、良好な結果を得た。第四に、画像から得られる深度情報の活用を検討した。前述の深層学習を利用しつつ、音声と深度、画像と深度の組み合わせを実験し、認識精度の向上を確認した。この他、深層学習による音響特徴量(DBAF)とDBVFに正準相関分析を適用することで、環境適応につながる大変興味深い結果を得た。また前年度に続き、中語彙・大語彙AVSRに向けたデータ収集と、発話中の話者の顔検出の研究を行った。
以上の成果について、国際会議を中心に発表を行い、雑誌論文へ投稿した。

  • Research Products

    (8 results)

All 2016 2015

All Presentation (8 results) (of which Int'l Joint Research: 6 results)

  • [Presentation] Visual speech recognition using optical and depth image features2016

    • Author(s)
      Satoshi Tamura, Takuya Kawasaki, Koichi Miyazaki, Kazuto Ukai and Satoru Hayamizu
    • Organizer
      FCV2016
    • Place of Presentation
      Takayama, Japan
    • Year and Date
      2016-02-17 – 2016-02-19
    • Int'l Joint Research
  • [Presentation] Audio-visual speech recognition using deep bottleneck features and high-performance lipreading2015

    • Author(s)
      Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda and Satoru Hayamizu
    • Organizer
      APSIPA ASC 2015
    • Place of Presentation
      Hong Kong, China
    • Year and Date
      2015-12-16 – 2015-12-19
    • Int'l Joint Research
  • [Presentation] 深層学習によるボトルネック特徴量を用いたマルチモーダル音声認識2015

    • Author(s)
      田村 哲嗣, 二宮 宏史, 北岡 教英, 大須賀 晋, 入部 百合絵, 武田 一哉, 速水 悟
    • Organizer
      電子情報通信学会 技術研究報告
    • Place of Presentation
      神戸大学
    • Year and Date
      2015-10-15 – 2015-10-16
  • [Presentation] Audio-visual processing toward robust speech recognition in cars2015

    • Author(s)
      Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda and Satoru Hayamizu
    • Organizer
      DSP in Vehicle 2015
    • Place of Presentation
      San Francisco, U.S.A.
    • Year and Date
      2015-10-14 – 2015-10-16
    • Int'l Joint Research
  • [Presentation] Investigation of DNN-based modeling for audio-visual speech recognition2015

    • Author(s)
      Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda and Satoru Hayamizu
    • Organizer
      MLSLP2015
    • Place of Presentation
      Aizu, Japan
    • Year and Date
      2015-09-19 – 2015-09-20
    • Int'l Joint Research
  • [Presentation] 深層学習による音響・画像特徴量を用いたマルチモーダル音声認識2015

    • Author(s)
      田村 哲嗣, 二宮 宏史, 北岡 教英, 大須賀 晋, 入部 百合絵, 武田 一哉, 速水 悟
    • Organizer
      日本音響学会 2015年秋季研究発表会
    • Place of Presentation
      会津大学
    • Year and Date
      2015-09-16 – 2015-09-18
  • [Presentation] Stream weight estimation using higher order statistics in multi-modal speech recognition2015

    • Author(s)
      Kazuto Ukai, Satoshi Tamura and Satoru Hayamizu
    • Organizer
      FAAVSP2015
    • Place of Presentation
      Vienna, Austria
    • Year and Date
      2015-09-11 – 2015-09-13
    • Int'l Joint Research
  • [Presentation] Integration of deep bottleneck features for audio-visual speech recognition2015

    • Author(s)
      Hiroshi Ninomiya, Norihide Kitaoka, Satoshi Tamura, Yurie Iribe and Kazuya Takeda
    • Organizer
      INTERSPEECH2015
    • Place of Presentation
      Dresden, Germany
    • Year and Date
      2015-09-06 – 2015-09-10
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi