2018 Fiscal Year Annual Research Report

マルチモーダルサイレント音声認識技術に関する研究

Research Project

Project/Area Number	16H03211
Research Institution	Kyushu Institute of Technology
Principal Investigator	齊藤剛史九州工業大学, 大学院情報工学研究院, 准教授 (10379654)
Co-Investigator(Kenkyū-buntansha)	田村哲嗣岐阜大学, 工学部, 准教授 (10402215) 桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490) 速水悟岐阜大学, 工学部, 教授 (90345794) 永井秀利九州工業大学, 大学院情報工学研究院, 助教 (60237485) 山崎敏正九州工業大学, 大学院情報工学研究院, 教授 (50392163)
Project Period (FY)	2016-04-01 – 2020-03-31
Keywords	ヒューマンインタフェース
Outline of Annual Research Achievements	１．実施計画に基づき、本研究グループが企画・運営するワークショップ（第５回サイレント音声認識ワークショップ）を2018年9月29日（土）～30日（日）に東京理科大学野田キャンパスで開催した。ワークショップでは特別講演1件、チュートリアル講演1件を含め16件の発表があった。特別講演に関してはサイレント音声の一つのアプローチである手話に関して、チュートリアル講演に関しては、本研究グループの研究者が近年注目を集めている機械学習と深層学習による時系列モデルについて講演された。また実施計画通りに表彰制度において学生奨励賞1名を表彰した。２．実施計画に基づき、カラー画像を用いた音声認識技術である読唇技術において、研究代表者が構築したスマートデバイスを用いた発話シーンデータベース（SSSD）を公開し、さらにSSSDを用いたコンペティション「機械読唇チャレンジ」を国内初開催した。初の試みであったため参加は3グループと少なかったが、関係者からは好評であり、第２回の開催要望があった。３．本研究グループ6名の研究者は、各モダリティにおける研究を進め、国際学会発表5件、国内学会発表15件の研究成果を挙げた。また研究代表者は、ひらめき☆ときめきサイエンスなどにおいても本研究テーマについて高校生向けに紹介した。４．読唇向けの公開データベースSSSDを用いて、読唇技術を体験できるWebアプリを開発し、一般に公開した。さらに新聞やラジオ等で取り上げられ、本研究成果を社会に発信した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason ワークショップの開催に関しては、研究成果発表だけでなく特別講演およびチュートリアル講演を企画して魅力あるワークショップを開催した。サイレント音声認識技術の一つである読唇技術における公開データベースSSSDを用いた国内初の読唇技術のコンペティション「機械読唇チャレンジ」の実施や読唇技術を体験できるWebアプリを開発・公開することで研究成果を社会に発信することができた。本研究グループ6名の研究者は、各テーマにおける研究を進め、国内外でそれぞれ研究成果を発表した。
Strategy for Future Research Activity	ワークショップについては継続して開催する。2019年度は九州地方での開催を計画している。これまで同様に学生奨励賞を設ける。2018年度に続き、読唇技術向けのコンペティション「第２回機械読唇チャレンジ」をワークショップ内で開催する予定である。

Research Products
(23 results)

All 2019 2018 Other

All Presentation (21 results) (of which Int'l Joint Research: 5 results, Invited: 1 results) Remarks (2 results)

[Presentation] 読唇のためのDCCAを用いたマルチモーダルデータ拡張2019
- Author(s)
  下西雅樹，田村哲嗣，速水悟
- Organizer
  電子情報通信学会 2019年1月音声研究会
[Presentation] Multimodal feature conversion for visual speech recognition using deep ca0nical correlation analysis2019
- Author(s)
  Masaki Shimonishi, Satoshi Tamura and Satoru Hayamizu,
- Organizer
  NCSP'19
- Int'l Joint Research
[Presentation] CNNを用いた文章発話シーンに対する単音読唇2019
- Author(s)
  清水翔太，齊藤剛史
- Organizer
  動的画像処理実利用化ワークショップ2019（DIA2019）
[Presentation] 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換2018
- Author(s)
  田村哲嗣，堀尾健斗，遠藤肇，速水悟，戸田智基
- Organizer
  電子情報通信学会 2018年6月音声研究会
[Presentation] SSSDを用いた深層学習による読唇精度に関する検討2018
- Author(s)
  窪川美智子，齊藤剛史
- Organizer
  第21回　画像の認識・理解シンポジウム（MIRU2018）
[Presentation] SSSD: Speech Scene Database by Smart Device for Visual Speech Recognition2018
- Author(s)
  Takeshi Saitoh and Michiko Kubokawa
- Organizer
  24th International Conference on Pattern Recognition (ICPR2018)
- Int'l Joint Research
[Presentation] Audio-visual voice conversion using deep ca0nical correlation analysis for deep bottleneck features2018
- Author(s)
  Satoshi Tamura, Kento Horio, Hajime Endo, Satoru Hayamizu and Tomoki Toda,
- Organizer
  INTERSPEECH2019
- Int'l Joint Research
[Presentation] SSSDを用いた深層学習による読唇実験報告2018
- Author(s)
  齊藤剛史，窪川美智子
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] 口唇画像を用いたCNN-HMMによる数字発話認識2018
- Author(s)
  中島成穂，尾崎司，田村哲嗣，速水悟
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換2018
- Author(s)
  田村哲嗣，堀尾健斗，遠藤肇，速水悟，戸田智基
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] 黙声認識における冗長ウェーブレット係数の集合選択に依存した周波数特徴の違い2018
- Author(s)
  永井秀利
- Organizer
  FIT2018
[Presentation] ウェーブレット係数集合選択によるスクワット運動時表面筋電の周波数特徴の違い2018
- Author(s)
  縄田聖人，永井秀利，中村貞吾
- Organizer
  電気・情報関係学会九州支部連合大会
[Presentation] 表面筋電の冗長ウェーブレット係数集合タイプによる特徴差2018
- Author(s)
  永井秀利
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] ウェーブレット係数集合の選択による黙声発声開始位置推定手法2018
- Author(s)
  永井秀利
- Organizer
  電子情報通信学会総合大会
[Presentation] Active Appearance Modelsを用いた読唇2018
- Author(s)
  小口優人，大村英史，桂田浩一
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] 発話時脳波を利用した音声言語情報の識別2018
- Author(s)
  深井健大郎，大村英史，桂田浩一，平田里佳，入部百合絵，新田恒雄
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] Silent-speech-related potentials　－grand averagesによる検討－2018
- Author(s)
  山﨑敏正，東直人
- Organizer
  第5回サイレント音声認識ワークショップ
[Presentation] 機械学習と深層学習による時系列モデル入門2018
- Author(s)
  速水悟
- Organizer
  第5回サイレント音声認識ワークショップ
- Invited
[Presentation] A method to estimate the active site by the brain functional connectivity networks based on electroencephalograms during various facial expressions2018
- Author(s)
  A.Watanabe, T.Yamazaki, I.Nemoto
- Organizer
  Neuroscience 2018
- Int'l Joint Research
[Presentation] Differences in scalp-recorded EEG based brain functional connectivity networks between Alzheimer's disease and elderly controls2018
- Author(s)
  S.Nishijima, Y.Kuroiwa, H.Nakane, K.Fuji0, T.Hirai, K.Suzuki, Y.Baba, T.Yamazaki
- Organizer
  Neuroscience 2018
- Int'l Joint Research
[Presentation] 再帰型ニューラルネットワークを用いた動き特徴量による単語読唇システムの開発2018
- Author(s)
  齊藤剛史，窪川美智子
- Organizer
  ビジョン技術の実利用ワークショップ（ViEW2018）
[Remarks] 第5回サイレント音声認識ワークショップ
- URL
  http://www.slab.ces.kyutech.ac.jp/SSRW2018
[Remarks] 読唇技術デモンストレーションWebアプリケーション
- URL
  https://demo.slab.ces.kyutech.ac.jp/VSR/index.html

2018 Fiscal Year Annual Research Report

マルチモーダルサイレント音声認識技術に関する研究

Principal Investigator

齊藤 剛史 九州工業大学, 大学院情報工学研究院, 准教授 (10379654)

Current Status of Research Progress

Reason

Research Products

[Presentation] 読唇のためのDCCAを用いたマルチモーダルデータ拡張2019

Author(s)

Organizer

[Presentation] Multimodal feature conversion for visual speech recognition using deep ca0nical correlation analysis2019

Author(s)

Organizer

[Presentation] CNNを用いた文章発話シーンに対する単音読唇2019

Author(s)

Organizer

[Presentation] 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換2018

Author(s)

Organizer

[Presentation] SSSDを用いた深層学習による読唇精度に関する検討2018

Author(s)

Organizer

[Presentation] SSSD: Speech Scene Database by Smart Device for Visual Speech Recognition2018

Author(s)

Organizer

[Presentation] Audio-visual voice conversion using deep ca0nical correlation analysis for deep bottleneck features2018

Author(s)

Organizer

[Presentation] SSSDを用いた深層学習による読唇実験報告2018

Author(s)

Organizer

[Presentation] 口唇画像を用いたCNN-HMMによる数字発話認識2018

Author(s)

Organizer

[Presentation] 深層ボトルネック特徴と深層正準相関分析を用いたマルチモーダル声質変換2018

Author(s)

Organizer

[Presentation] 黙声認識における冗長ウェーブレット係数の集合選択に依存した周波数特徴の違い2018

Author(s)

Organizer

[Presentation] ウェーブレット係数集合選択によるスクワット運動時表面筋電の周波数特徴の違い2018

Author(s)

Organizer

[Presentation] 表面筋電の冗長ウェーブレット係数集合タイプによる特徴差2018

Author(s)

Organizer

[Presentation] ウェーブレット係数集合の選択による黙声発声開始位置推定手法2018

Author(s)

Organizer

[Presentation] Active Appearance Modelsを用いた読唇2018

Author(s)

Organizer

[Presentation] 発話時脳波を利用した音声言語情報の識別2018

Author(s)

Organizer

[Presentation] Silent-speech-related potentials －grand averagesによる検討－2018

Author(s)

Organizer

[Presentation] 機械学習と深層学習による時系列モデル入門2018

Author(s)

Organizer

[Presentation] A method to estimate the active site by the brain functional connectivity networks based on electroencephalograms during various facial expressions2018

Author(s)

Organizer

[Presentation] Differences in scalp-recorded EEG based brain functional connectivity networks between Alzheimer's disease and elderly controls2018

Author(s)

Organizer

[Presentation] 再帰型ニューラルネットワークを用いた動き特徴量による単語読唇システムの開発2018

Author(s)

Organizer

[Remarks] 第5回サイレント音声認識ワークショップ

URL

[Remarks] 読唇技術デモンストレーションWebアプリケーション

URL

齊藤剛史九州工業大学, 大学院情報工学研究院, 准教授 (10379654)

[Presentation] Silent-speech-related potentials　－grand averagesによる検討－2018