• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実施状況報告書

環境に応じたマルチモーダル音声認識の構成最適化手法の研究

研究課題

研究課題/領域番号 25730109
研究種目

若手研究(B)

研究機関岐阜大学

研究代表者

田村 哲嗣  岐阜大学, 工学部, 助教 (10402215)

研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード音声認識 / マルチモーダル情報処理 / 読唇 / 最適化 / 実環境
研究概要

本研究は、音声と画像を用いるマルチモーダル音声認識において、その要素技術の組み合わせ・処理方法を、環境やタスクに応じ最適化する「構成最適化手法」の確立を目標としている。あわせて、マルチモーダル音声認識の認識性能を向上させることで、さまざまな環境・タスクへのマルチモーダル音声認識の適用を可能にし、その実用化を目指している。
本年度は、その第一段階として、マルチモーダル音声認識の要素技術を評価する「最適化尺度」の検討を行った。例えば、モデルやモジュールを測る尺度として、KLダイバージェンスについて調査した。一般性・汎用性の観点から、他のタスクも含めたシミュレーション実験を行い、一定の有効性をみた。また、「最適化尺度」の評価実験に使用する実環境データベースについて、必要なラベル付けやデータ整備を行った。予備実験として、モデル適応技術を用いた認識実験を行い、ベースとなる手法の評価と、実用化に向けた検討を行った。あわせて、マルチモーダル音声認識の要素技術の改善も行った。具体的には、読唇技術やスパース表現を用いた特徴量改善の研究を行った。
なお、マルチモーダル音声認識の実用化を見据え、本研究では最終年度で、マルチモーダル音声認識の実環境でのフィールドテストを行う予定である。このための準備として、従来PC上で動作していたリアルタイム・マルチモーダル音声認識システムの発展形にあたる、Android端末上でリアルタイム動作するシステムの開発を行った。これを用いて、さまざまな環境で実際に音声・画像データの収録を行った。ここで収録したデータは、前述の実環境データベースとあわせて、最適化尺度の評価実験に用いる予定である。加えて、このデータを用いた認識実験を行い、フィールドテストに向けたシステムの改善点が明らかとなった。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

「最適化尺度」の検討・評価実験に用いる実環境データベースについて、本研究で利用可能とするための整備作業が遅れている。できるだけ早い時期に利用可能状態にするとともに、評価実験を速やかに開始したい。他方、最終年度に予定していたモバイル端末用リアルタイム・マルチモーダル音声認識システムの開発を前倒しし並行作業で進めている。データベース整備の遅れの影響が、次年度以降になるべく及ばないよう、工程上の工夫を行った。以上を踏まえ、上記のとおり全体的な達成度を評価した。

今後の研究の推進方策

使用する実環境データベースの整備後、速やかに「最適化尺度」の検討実験を行いたい。ここまでで得られた知見や技術を基に、次年度は大語彙タスクへの適用を行っていく予定である。

  • 研究成果

    (5件)

すべて 2014 2013

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち招待講演 1件)

  • [雑誌論文] Multistream sparse representation features for noise robust audio-visual speech recognition2014

    • 著者名/発表者名
      Peng Shen, Satoshi Tamura, Satoru Hayamizu
    • 雑誌名

      Acoustical Science and Technology

      巻: 35 ページ: 17-27

    • DOI

      10.1250/ast.35.17

    • 査読あり
  • [学会発表] マルチモーダル情報処理技術を用いた音声・画像の統合的活用2014

    • 著者名/発表者名
      田村哲嗣
    • 学会等名
      第1回サイレント音声認識グループ講演会
    • 発表場所
      九州工業大学
    • 年月日
      20140324-20140324
    • 招待講演
  • [学会発表] 実環境におけるマルチモーダル音声インターフェースの適用2014

    • 著者名/発表者名
      世古拓海, 河﨑卓也, 田村哲嗣, 速水悟
    • 学会等名
      電子情報通信学会技術研究報告(パターン認識・メディア理解研究会)
    • 発表場所
      早稲田大学
    • 年月日
      20140314-20140314
  • [学会発表] Improvement of lip reading performance in real environments using speaker and environmental adaptation2013

    • 著者名/発表者名
      Takuya Kawasaki, Naoya Ukai, Takumi Seko, Satoshi Tamura and Satoru Hayamizu
    • 学会等名
      国際会議ACPR2013
    • 発表場所
      Okinawa, Japan
    • 年月日
      20131105-20131105
  • [学会発表] Improvement of lipreading performance using discriminative feature and speaker adaptation2013

    • 著者名/発表者名
      Takumi Seko, Naoya Ukai, Satoshi Tamura and Satoru Hayamizu
    • 学会等名
      国際会議AVSP2013
    • 発表場所
      Annecy, France
    • 年月日
      20130831-20130831

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi