• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

深層学習によるマルチモーダル時系列データ認識基盤の構築

研究課題

研究課題/領域番号 16H02845
研究機関東京工業大学

研究代表者

篠田 浩一  東京工業大学, 情報理工学院, 教授 (10343097)

研究分担者 井上 中順  東京工業大学, 情報理工学院, 助教 (10733397)
岩野 公司  東京都市大学, メディア情報学部, 教授 (90323823)
研究期間 (年度) 2016-04-01 – 2019-03-31
キーワード知覚情報処理 / 音声情報処理 / 動画情報処理 / 深層学習
研究実績の概要

本研究では、音声や動画像などからなるマルチモーダルの時系列データから有用な情報を抽出するための、深層学習を用いた高性能な情報検索基盤を構築することを目的としている。
今年度は、前年度に引き続き、音声認識の研究と動画像からのイベント抽出の研究を進めた。音声認識では,昨年度から行ってきた、複数話者の音声を分離するDNNと音声認識DNNを統合して学習するEnd-to-End学習の枠組みをさらに発展させて高性能化し、国際会議で発表した。また、Denoising Autoencoderを用いた耐雑音技術において、雑音下音声から音声を抽出するタスクと雑音を抽出するタスクの2つのタスクを同時に行う、マルチタスク学習を行い、従来法に比べ高い認識性能を得ることができた。さらに、これらの成果を音楽情報処理に応用した。より具体的には、複数楽器からなる楽曲演奏からの自動採譜において、予め学習した楽器毎のRNN音響モデルを組み合わせることで、楽器種と音高とを同時に推定する方式を開発した。加えて、口唇の深度画像の時系列信号と音声の時系列信号をともに用いることで音声認識の性能を向上させる方式を開発した。
動画からのイベント検出では、従来から行ってきたRNNの研究に対して、Connectionist Tempral Classification (CTC)を適用し、ラベル境界を必要としない認識技術を開発した。特に人間の身振り認識において、連続する動作において動作間の関係をn-gramでモデル化することにより、従来より高い性能を得ることができた。NISTが主催するTRECVIDワークショップの映像からのイベント検出のタスクにおいて世界2位の結果を得た。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

耐雑音音声認識の課題において、研究協力者の転出により開発が遅延したが、翌年に繰り越して課題を遂行し、無事本年度の目的を達成することができた。

今後の研究の推進方策

当初の計画通り、音声認識、マルチメディアイベント認識の性能向上を目指した方式開発を行う。

  • 研究成果

    (14件)

すべて 2018 2017

すべて 学会発表 (13件) (うち国際学会 5件、 招待講演 3件) 図書 (1件)

  • [学会発表] 全層ゲート付き2次元畳み込みネットワークによる多重音信号の音高認識2018

    • 著者名/発表者名
      生田目 敬弘, 亀岡 弘和, 篠田 浩一
    • 学会等名
      研究報告音声言語情報処理(SLP)
  • [学会発表] Multi-Task Autoencoder for Noise-Robust Speech Recognition2018

    • 著者名/発表者名
      Haoyi Zhang, Conggui Liu, Nakamasa Inoue, Koichi Shinoda
    • 学会等名
      ICASSP
    • 国際学会
  • [学会発表] Video Information Retrieval2017

    • 著者名/発表者名
      Koichi Shinoda
    • 学会等名
      The 2017 IEEE SPS Summer School on Visual Image Search and Visual Analytics (VISVA2017)
    • 招待講演
  • [学会発表] 口唇の深度画像を用いたディープオートエンコーダによるマルチモーダル音声認識2017

    • 著者名/発表者名
      安井勇樹, 岩野 公司, 井上 中順, 篠田 浩一
    • 学会等名
      情報処理学会研究報告 SLP
  • [学会発表] Joint training of speaker separation and speech recognit ion based on deep learning2017

    • 著者名/発表者名
      Conggui Liu, Nakamasa Inoue, Koichi Shinoda
    • 学会等名
      ASJ 2017 Autumn Meeting
  • [学会発表] 口唇深度画像を利用したディープオートエンコーダに基づくマルチモーダル音声認識2017

    • 著者名/発表者名
      安井 勇樹, 岩野 公司, 井上 中順, 篠田 浩一
    • 学会等名
      日本音響学会2017年秋季研究発表会講演論文集
  • [学会発表] 深層学習の音声認識への応用2017

    • 著者名/発表者名
      篠田 浩一
    • 学会等名
      情報処理学会連続セミナー2017 第4回ディープラーニングの活用と基盤
    • 招待講演
  • [学会発表] CTC Network with Statistical Language Modeling for Action Sequence Recognition in Videos2017

    • 著者名/発表者名
      Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
    • 学会等名
      ACM Multimedia Thematic Workshop
    • 国際学会
  • [学会発表] TokyoTech-AIST at TRECVID 2017: Multimedia Event Detection Using Deep CNNs and Zero-Shot Classifiers2017

    • 著者名/発表者名
      Nakamasa Inoue, Ryosuke Yamamoto, Na Rong, Satoshi Kanai, Junsuke Masada, Chihiro Shiraishi, Shi-wook Lee, Koichi Shinoda
    • 学会等名
      TRECVID workshop
    • 国際学会
  • [学会発表] Multimodal Speech Recognition Using Mouth Images from Depth Camera2017

    • 著者名/発表者名
      Yuki Yasui, Nakamasa Inoue, Koji Iwano, Koichi Shinoda
    • 学会等名
      APSIPA
    • 国際学会
  • [学会発表] A Unified Network for Multi-Speaker Speech Recognition with Multi-Channel Recordings2017

    • 著者名/発表者名
      Conggui Liu, Nakamasa Inoue, Koichi Shinoda
    • 学会等名
      APSIPA
    • 国際学会
  • [学会発表] 高速かつ省資源な深層学習の実現に向けて2017

    • 著者名/発表者名
      篠田 浩一
    • 学会等名
      JST・NSF国際連携シンポジウム
    • 招待講演
  • [学会発表] Action Sequence Recognition in Videos by Combining a CTC Network with a Statistical Language Model2017

    • 著者名/発表者名
      Mengxi Lin, Nakamasa Inoue, Koichi Shinoda
    • 学会等名
      Technical Reports of IEICE PRMU
  • [図書] 音声認識 (機械学習プロフェッショナルシリーズ)2017

    • 著者名/発表者名
      篠田 浩一
    • 総ページ数
      165
    • 出版者
      講談社
    • ISBN
      9784061529274

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi