• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

マルチモーダルサイレント音声認識技術に関する研究

Research Project

Project/Area Number 16H03211
Research InstitutionKyushu Institute of Technology

Principal Investigator

齊藤 剛史  九州工業大学, 大学院情報工学研究院, 准教授 (10379654)

Co-Investigator(Kenkyū-buntansha) 田村 哲嗣  岐阜大学, 工学部, 准教授 (10402215)
桂田 浩一  東京理科大学, 理工学部情報科学科, 准教授 (80324490)
速水 悟  岐阜大学, 工学部, 教授 (90345794)
永井 秀利  九州工業大学, 大学院情報工学研究院, 助教 (60237485)
山崎 敏正  九州工業大学, 大学院情報工学研究院, 教授 (50392163)
Project Period (FY) 2016-04-01 – 2020-03-31
Keywordsヒューマンインタフェース
Outline of Annual Research Achievements

1.実施計画に基づき、本研究グループが企画・運営するワークショップ(第5回サイレント音声認識ワークショップ)を2018年9月29日(土)~30日(日)に東京理科大学野田キャンパスで開催した。ワークショップでは特別講演1件、チュートリアル講演1件を含め16件の発表があった。特別講演に関してはサイレント音声の一つのアプローチである手話に関して、チュートリアル講演に関しては、本研究グループの研究者が近年注目を集めている機械学習と深層学習による時系列モデルについて講演された。また実施計画通りに表彰制度において学生奨励賞1名を表彰した。
2.実施計画に基づき、カラー画像を用いた音声認識技術である読唇技術において、研究代表者が構築したスマートデバイスを用いた発話シーンデータベース(SSSD)を公開し、さらにSSSDを用いたコンペティション「機械読唇チャレンジ」を国内初開催した。初の試みであったため参加は3グループと少なかったが、関係者からは好評であり、第2回の開催要望があった。
3.本研究グループ6名の研究者は、各モダリティにおける研究を進め、国際学会発表5件、国内学会発表15件の研究成果を挙げた。また研究代表者は、ひらめき☆ときめきサイエンスなどにおいても本研究テーマについて高校生向けに紹介した。
4.読唇向けの公開データベースSSSDを用いて、読唇技術を体験できるWebアプリを開発し、一般に公開した。さらに新聞やラジオ等で取り上げられ、本研究成果を社会に発信した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

ワークショップの開催に関しては、研究成果発表だけでなく特別講演およびチュートリアル講演を企画して魅力あるワークショップを開催した。
サイレント音声認識技術の一つである読唇技術における公開データベースSSSDを用いた国内初の読唇技術のコンペティション「機械読唇チャレンジ」の実施や読唇技術を体験できるWebアプリを開発・公開することで研究成果を社会に発信することができた。
本研究グループ6名の研究者は、各テーマにおける研究を進め、国内外でそれぞれ研究成果を発表した。

Strategy for Future Research Activity

ワークショップについては継続して開催する。2019年度は九州地方での開催を計画している。これまで同様に学生奨励賞を設ける。2018年度に続き、読唇技術向けのコンペティション「第2回機械読唇チャレンジ」をワークショップ内で開催する予定である。

  • Research Products

    (23 results)

All 2019 2018 Other

All Presentation (21 results) (of which Int'l Joint Research: 5 results,  Invited: 1 results) Remarks (2 results)

  • [Presentation] 読唇のためのDCCAを用いたマルチモーダルデータ拡張2019

    • Author(s)
      下西 雅樹,田村 哲嗣,速水 悟
    • Organizer
      電子情報通信学会 2019年1月音声研究会
  • [Presentation] Multimodal feature conversion for visual speech recognition using deep ca0nical correlation analysis2019

    • Author(s)
      Masaki Shimonishi, Satoshi Tamura and Satoru Hayamizu,
    • Organizer
      NCSP'19
    • Int'l Joint Research
  • [Presentation] CNNを用いた文章発話シーンに対する単音読唇2019

    • Author(s)
      清水 翔太,齊藤 剛史
    • Organizer
      動的画像処理実利用化ワークショップ2019(DIA2019)
  • [Presentation] 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換2018

    • Author(s)
      田村 哲嗣,堀尾 健斗,遠藤 肇,速水 悟,戸田 智基
    • Organizer
      電子情報通信学会 2018年6月音声研究会
  • [Presentation] SSSDを用いた深層学習による読唇精度に関する検討2018

    • Author(s)
      窪川 美智子,齊藤 剛史
    • Organizer
      第21回 画像の認識・理解シンポジウム(MIRU2018)
  • [Presentation] SSSD: Speech Scene Database by Smart Device for Visual Speech Recognition2018

    • Author(s)
      Takeshi Saitoh and Michiko Kubokawa
    • Organizer
      24th International Conference on Pattern Recognition (ICPR2018)
    • Int'l Joint Research
  • [Presentation] Audio-visual voice conversion using deep ca0nical correlation analysis for deep bottleneck features2018

    • Author(s)
      Satoshi Tamura, Kento Horio, Hajime Endo, Satoru Hayamizu and Tomoki Toda,
    • Organizer
      INTERSPEECH2019
    • Int'l Joint Research
  • [Presentation] SSSDを用いた深層学習による読唇実験報告2018

    • Author(s)
      齊藤 剛史,窪川 美智子
    • Organizer
      第5回サイレント音声認識ワークショップ
  • [Presentation] 口唇画像を用いたCNN-HMMによる数字発話認識2018

    • Author(s)
      中島 成穂,尾崎 司,田村 哲嗣,速水 悟
    • Organizer
      第5回サイレント音声認識ワークショップ
  • [Presentation] 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換2018

    • Author(s)
      田村 哲嗣,堀尾 健斗,遠藤 肇,速水 悟,戸田 智基
    • Organizer
      第5回サイレント音声認識ワークショップ
  • [Presentation] 黙声認識における冗長ウェーブレット係数の集合選択に依存した周波数特徴の違い2018

    • Author(s)
      永井 秀利
    • Organizer
      FIT2018
  • [Presentation] ウェーブレット係数集合選択によるスクワット運動時表面筋電の周波数特徴の違い2018

    • Author(s)
      縄田聖人,永井秀利,中村貞吾
    • Organizer
      電気・情報関係学会九州支部連合大会
  • [Presentation] 表面筋電の冗長ウェーブレット係数集合タイプによる特徴差2018

    • Author(s)
      永井 秀利
    • Organizer
      第5回サイレント音声認識ワークショップ
  • [Presentation] ウェーブレット係数集合の選択による黙声発声開始位置推定手法2018

    • Author(s)
      永井 秀利
    • Organizer
      電子情報通信学会総合大会
  • [Presentation] Active Appearance Modelsを用いた読唇2018

    • Author(s)
      小口 優人,大村 英史,桂田 浩一
    • Organizer
      第5回サイレント音声認識ワークショップ
  • [Presentation] 発話時脳波を利用した音声言語情報の識別2018

    • Author(s)
      深井 健大郎,大村 英史,桂田 浩一,平田 里佳,入部 百合絵,新田 恒雄
    • Organizer
      第5回サイレント音声認識ワークショップ
  • [Presentation] Silent-speech-related potentials -grand averagesによる検討-2018

    • Author(s)
      山﨑 敏正,東 直人
    • Organizer
      第5回サイレント音声認識ワークショップ
  • [Presentation] 機械学習と深層学習による時系列モデル入門2018

    • Author(s)
      速水 悟
    • Organizer
      第5回サイレント音声認識ワークショップ
    • Invited
  • [Presentation] A method to estimate the active site by the brain functional connectivity networks based on electroencephalograms during various facial expressions2018

    • Author(s)
      A.Watanabe, T.Yamazaki, I.Nemoto
    • Organizer
      Neuroscience 2018
    • Int'l Joint Research
  • [Presentation] Differences in scalp-recorded EEG based brain functional connectivity networks between Alzheimer's disease and elderly controls2018

    • Author(s)
      S.Nishijima, Y.Kuroiwa, H.Nakane, K.Fuji0, T.Hirai, K.Suzuki, Y.Baba, T.Yamazaki
    • Organizer
      Neuroscience 2018
    • Int'l Joint Research
  • [Presentation] 再帰型ニューラルネットワークを用いた動き特徴量による単語読唇システムの開発2018

    • Author(s)
      齊藤 剛史,窪川 美智子
    • Organizer
      ビジョン技術の実利用ワークショップ(ViEW2018)
  • [Remarks] 第5回サイレント音声認識ワークショップ

    • URL

      http://www.slab.ces.kyutech.ac.jp/SSRW2018

  • [Remarks] 読唇技術デモンストレーションWebアプリケーション

    • URL

      https://demo.slab.ces.kyutech.ac.jp/VSR/index.html

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi