環境に応じたマルチモーダル音声認識の構成最適化手法の研究

研究課題

研究課題/領域番号	25730109
研究種目	若手研究(B)
配分区分	基金
研究分野	知覚情報処理
研究機関	岐阜大学
研究代表者	田村哲嗣岐阜大学, 工学部, 助教 (10402215)
研究期間 (年度)	2013-04-01 – 2016-03-31
研究課題ステータス	完了 (2015年度)
配分額 *注記	3,380千円 (直接経費: 2,600千円、間接経費: 780千円) 2015年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2014年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2013年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	音声認識 / マルチモーダル情報処理 / 読唇 / 最適化 / 実環境
研究成果の概要	本研究では、音声と画像を用いるマルチモーダル音声認識において、その要素技術や処理を環境やタスクに応じて最適化する手法の確立を目指した。異なる基本特徴を組み合わせ深層学習を適用することの有効性、音声・画像統合法の最適形態と認識モデルの確率的統合法の有用性、および個人・環境適応の改善による性能改善を確認し、これらにより、頑健かつ高性能なマルチモーダル認識アルゴリズムを構築した。本研究によるマルチモーダル音声認識を多種多様なタスク・環境において試用し、性能を確認するとともに、今後に向けた課題を明らかにした。

報告書

(4件)

研究成果
(16件)

すべて 2016 2015 2014 2013

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (15件) (うち国際学会 6件、招待講演 1件)

[雑誌論文] Multistream sparse representation features for noise robust audio-visual speech recognition2014
- 著者名/発表者名
  Peng Shen, Satoshi Tamura, Satoru Hayamizu
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 35 号: 1 ページ: 17-27
- DOI
  10.1250/ast.35.17
- NAID
  130003381833
- ISSN
  0369-4232, 1346-3969, 1347-5177
- 関連する報告書
  2013 実施状況報告書
- 査読あり
[学会発表] Visual speech recognition using optical and depth image features2016
- 著者名/発表者名
  Satoshi Tamura, Takuya Kawasaki, Koichi Miyazaki, Kazuto Ukai and Satoru Hayamizu
- 学会等名
  FCV2016
- 発表場所
  Takayama, Japan
- 年月日
  2016-02-17
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] Audio-visual speech recognition using deep bottleneck features and high-performance lipreading2015
- 著者名/発表者名
  Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda and Satoru Hayamizu
- 学会等名
  APSIPA ASC 2015
- 発表場所
  Hong Kong, China
- 年月日
  2015-12-16
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] 深層学習によるボトルネック特徴量を用いたマルチモーダル音声認識2015
- 著者名/発表者名
  田村哲嗣, 二宮宏史, 北岡教英, 大須賀晋, 入部百合絵, 武田一哉, 速水悟
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  神戸大学
- 年月日
  2015-10-15
- 関連する報告書
  2015 実績報告書
[学会発表] Audio-visual processing toward robust speech recognition in cars2015
- 著者名/発表者名
  Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda and Satoru Hayamizu
- 学会等名
  DSP in Vehicle 2015
- 発表場所
  San Francisco, U.S.A.
- 年月日
  2015-10-14
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] Investigation of DNN-based modeling for audio-visual speech recognition2015
- 著者名/発表者名
  Satoshi Tamura, Hiroshi Ninomiya, Norihide Kitaoka, Shin Osuga, Yurie Iribe, Kazuya Takeda and Satoru Hayamizu
- 学会等名
  MLSLP2015
- 発表場所
  Aizu, Japan
- 年月日
  2015-09-19
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] 深層学習による音響・画像特徴量を用いたマルチモーダル音声認識2015
- 著者名/発表者名
  田村哲嗣, 二宮宏史, 北岡教英, 大須賀晋, 入部百合絵, 武田一哉, 速水悟
- 学会等名
  日本音響学会 2015年秋季研究発表会
- 発表場所
  会津大学
- 年月日
  2015-09-16
- 関連する報告書
  2015 実績報告書
[学会発表] Stream weight estimation using higher order statistics in multi-modal speech recognition2015
- 著者名/発表者名
  Kazuto Ukai, Satoshi Tamura and Satoru Hayamizu
- 学会等名
  FAAVSP2015
- 発表場所
  Vienna, Austria
- 年月日
  2015-09-11
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] Integration of deep bottleneck features for audio-visual speech recognition2015
- 著者名/発表者名
  Hiroshi Ninomiya, Norihide Kitaoka, Satoshi Tamura, Yurie Iribe and Kazuya Takeda
- 学会等名
  INTERSPEECH2015
- 発表場所
  Dresden, Germany
- 年月日
  2015-09-06
- 関連する報告書
  2015 実績報告書
- 国際学会
[学会発表] Data collection for mobile audio-visual speech recognition in various environments2014
- 著者名/発表者名
  Satoshi Tamura, Takumi Seko and Satoru Hayamizu,
- 学会等名
  国際会議 Oriental COCOSDA 2014
- 発表場所
  Phuket, Thailand
- 年月日
  2014-09-11
- 関連する報告書
  2014 実施状況報告書
[学会発表] Speaking-face detection for multimodal person recognition in TV shows2014
- 著者名/発表者名
  Satoshi Tamura and Herve Bredin
- 学会等名
  日本音響学会 2014年秋季研究発表会
- 発表場所
  北海学園大学
- 年月日
  2014-09-05
- 関連する報告書
  2014 実施状況報告書
[学会発表] マルチモーダル音声認識における音声と画像の協調によるモデル適応法の検討2014
- 著者名/発表者名
  絹田卓也, 田村哲嗣, 速水悟
- 学会等名
  第13回情報科学技術フォーラム（FIT2014）
- 発表場所
  筑波大学
- 年月日
  2014-09-05
- 関連する報告書
  2014 実施状況報告書
[学会発表] 実環境におけるマルチモーダル音声インターフェースの適用2014
- 著者名/発表者名
  世古拓海, 河﨑卓也, 田村哲嗣, 速水悟
- 学会等名
  電子情報通信学会技術研究報告（パターン認識・メディア理解研究会）
- 発表場所
  早稲田大学
- 関連する報告書
  2013 実施状況報告書
[学会発表] マルチモーダル情報処理技術を用いた音声・画像の統合的活用2014
- 著者名/発表者名
  田村哲嗣
- 学会等名
  第1回サイレント音声認識グループ講演会
- 発表場所
  九州工業大学
- 関連する報告書
  2013 実施状況報告書
- 招待講演
[学会発表] Improvement of lipreading performance using discriminative feature and speaker adaptation2013
- 著者名/発表者名
  Takumi Seko, Naoya Ukai, Satoshi Tamura and Satoru Hayamizu
- 学会等名
  国際会議AVSP2013
- 発表場所
  Annecy, France
- 関連する報告書
  2013 実施状況報告書
[学会発表] Improvement of lip reading performance in real environments using speaker and environmental adaptation2013
- 著者名/発表者名
  Takuya Kawasaki, Naoya Ukai, Takumi Seko, Satoshi Tamura and Satoru Hayamizu
- 学会等名
  国際会議ACPR2013
- 発表場所
  Okinawa, Japan
- 関連する報告書
  2013 実施状況報告書

環境に応じたマルチモーダル音声認識の構成最適化手法の研究

研究代表者

田村 哲嗣 岐阜大学, 工学部, 助教 (10402215)

3,380千円 (直接経費: 2,600千円、間接経費: 780千円)

報告書

研究成果

[雑誌論文] Multistream sparse representation features for noise robust audio-visual speech recognition2014

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] Visual speech recognition using optical and depth image features2016

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Audio-visual speech recognition using deep bottleneck features and high-performance lipreading2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 深層学習によるボトルネック特徴量を用いたマルチモーダル音声認識2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Audio-visual processing toward robust speech recognition in cars2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Investigation of DNN-based modeling for audio-visual speech recognition2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 深層学習による音響・画像特徴量を用いたマルチモーダル音声認識2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Stream weight estimation using higher order statistics in multi-modal speech recognition2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Integration of deep bottleneck features for audio-visual speech recognition2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Data collection for mobile audio-visual speech recognition in various environments2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Speaking-face detection for multimodal person recognition in TV shows2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] マルチモーダル音声認識における音声と画像の協調によるモデル適応法の検討2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 実環境におけるマルチモーダル音声インターフェースの適用2014

田村哲嗣岐阜大学, 工学部, 助教 (10402215)