2013 年度実施状況報告書

環境に応じたマルチモーダル音声認識の構成最適化手法の研究

研究課題

研究課題/領域番号	25730109
研究種目	若手研究(B)
研究機関	岐阜大学
研究代表者	田村哲嗣岐阜大学, 工学部, 助教 (10402215)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	音声認識 / マルチモーダル情報処理 / 読唇 / 最適化 / 実環境
研究概要	本研究は、音声と画像を用いるマルチモーダル音声認識において、その要素技術の組み合わせ・処理方法を、環境やタスクに応じ最適化する「構成最適化手法」の確立を目標としている。あわせて、マルチモーダル音声認識の認識性能を向上させることで、さまざまな環境・タスクへのマルチモーダル音声認識の適用を可能にし、その実用化を目指している。本年度は、その第一段階として、マルチモーダル音声認識の要素技術を評価する「最適化尺度」の検討を行った。例えば、モデルやモジュールを測る尺度として、KLダイバージェンスについて調査した。一般性・汎用性の観点から、他のタスクも含めたシミュレーション実験を行い、一定の有効性をみた。また、「最適化尺度」の評価実験に使用する実環境データベースについて、必要なラベル付けやデータ整備を行った。予備実験として、モデル適応技術を用いた認識実験を行い、ベースとなる手法の評価と、実用化に向けた検討を行った。あわせて、マルチモーダル音声認識の要素技術の改善も行った。具体的には、読唇技術やスパース表現を用いた特徴量改善の研究を行った。なお、マルチモーダル音声認識の実用化を見据え、本研究では最終年度で、マルチモーダル音声認識の実環境でのフィールドテストを行う予定である。このための準備として、従来PC上で動作していたリアルタイム・マルチモーダル音声認識システムの発展形にあたる、Android端末上でリアルタイム動作するシステムの開発を行った。これを用いて、さまざまな環境で実際に音声・画像データの収録を行った。ここで収録したデータは、前述の実環境データベースとあわせて、最適化尺度の評価実験に用いる予定である。加えて、このデータを用いた認識実験を行い、フィールドテストに向けたシステムの改善点が明らかとなった。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由「最適化尺度」の検討・評価実験に用いる実環境データベースについて、本研究で利用可能とするための整備作業が遅れている。できるだけ早い時期に利用可能状態にするとともに、評価実験を速やかに開始したい。他方、最終年度に予定していたモバイル端末用リアルタイム・マルチモーダル音声認識システムの開発を前倒しし並行作業で進めている。データベース整備の遅れの影響が、次年度以降になるべく及ばないよう、工程上の工夫を行った。以上を踏まえ、上記のとおり全体的な達成度を評価した。
今後の研究の推進方策	使用する実環境データベースの整備後、速やかに「最適化尺度」の検討実験を行いたい。ここまでで得られた知見や技術を基に、次年度は大語彙タスクへの適用を行っていく予定である。

研究成果
(5件)

すべて 2014 2013

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち招待講演 1件)

[雑誌論文] Multistream sparse representation features for noise robust audio-visual speech recognition2014
- 著者名/発表者名
  Peng Shen, Satoshi Tamura, Satoru Hayamizu
- 雑誌名
  
  Acoustical Science and Technology
  
  巻: 35 ページ: 17-27
- DOI
  10.1250/ast.35.17
- 査読あり
[学会発表] マルチモーダル情報処理技術を用いた音声・画像の統合的活用2014
- 著者名/発表者名
  田村哲嗣
- 学会等名
  第1回サイレント音声認識グループ講演会
- 発表場所
  九州工業大学
- 年月日
  20140324-20140324
- 招待講演
[学会発表] 実環境におけるマルチモーダル音声インターフェースの適用2014
- 著者名/発表者名
  世古拓海, 河﨑卓也, 田村哲嗣, 速水悟
- 学会等名
  電子情報通信学会技術研究報告（パターン認識・メディア理解研究会）
- 発表場所
  早稲田大学
- 年月日
  20140314-20140314
[学会発表] Improvement of lip reading performance in real environments using speaker and environmental adaptation2013
- 著者名/発表者名
  Takuya Kawasaki, Naoya Ukai, Takumi Seko, Satoshi Tamura and Satoru Hayamizu
- 学会等名
  国際会議ACPR2013
- 発表場所
  Okinawa, Japan
- 年月日
  20131105-20131105
[学会発表] Improvement of lipreading performance using discriminative feature and speaker adaptation2013
- 著者名/発表者名
  Takumi Seko, Naoya Ukai, Satoshi Tamura and Satoru Hayamizu
- 学会等名
  国際会議AVSP2013
- 発表場所
  Annecy, France
- 年月日
  20130831-20130831

2013 年度 実施状況報告書

環境に応じたマルチモーダル音声認識の構成最適化手法の研究

研究代表者

田村 哲嗣 岐阜大学, 工学部, 助教 (10402215)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Multistream sparse representation features for noise robust audio-visual speech recognition2014

著者名/発表者名

雑誌名

DOI

[学会発表] マルチモーダル情報処理技術を用いた音声・画像の統合的活用2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 実環境におけるマルチモーダル音声インターフェースの適用2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Improvement of lip reading performance in real environments using speaker and environmental adaptation2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Improvement of lipreading performance using discriminative feature and speaker adaptation2013

著者名/発表者名

学会等名

発表場所

年月日

2013 年度実施状況報告書

田村哲嗣岐阜大学, 工学部, 助教 (10402215)