2019 Fiscal Year Annual Research Report

マルチモーダルサイレント音声認識技術に関する研究

Research Project

Project/Area Number	16H03211
Research Institution	Kyushu Institute of Technology
Principal Investigator	齊藤剛史九州工業大学, 大学院情報工学研究院, 准教授 (10379654)
Co-Investigator(Kenkyū-buntansha)	田村哲嗣岐阜大学, 工学部, 准教授 (10402215) 桂田浩一東京理科大学, 理工学部情報科学科, 准教授 (80324490) 速水悟岐阜大学, 工学部, 教授 (90345794) 永井秀利九州工業大学, 大学院情報工学研究院, 助教 (60237485) 山崎敏正九州工業大学, 大学院情報工学研究院, 教授 (50392163)
Project Period (FY)	2016-04-01 – 2020-03-31
Keywords	ヒューマンインタフェース / サイレント音声認識 / 読唇
Outline of Annual Research Achievements	１．実施計画に基づき、本研究グループが主催するワークショップ（第6回サイレント音声認識ワークショップ）を2019年10月27日（日）に第一工業大学で開催した。科研費の助成を受ける前の2014年度から毎年継続して開催しており、2019年度は新たな試みとして、電子情報通信学会福祉情報工学研究会および音声研究会と併催した。ワークショップにおける発表件数は17件であり、実施計画通りに表彰制度において学生奨励賞1名を表彰した。２．2018年度に公開したカラー画像を用いた音声認識技術である読唇技術向けの発話シーンデータベースSSSDのデータを36名から72名に追加した。さらにSSSDを用いたコンペティション「第2回機械読唇チャレンジ」を開催した。第1回の参加は3グループであったが、第2回の参加は7グループであり好評であった。また1位のグループの認識精度は第1回の1位と比べ高い精度であり、本研究分野の技術が進展していることを確認した。３．本研究グループ6名の研究者は、各モダリティにおける研究を進め、国際学会発表2件、国内学会発表15件の研究成果を挙げた。また研究代表者は、「ひらめき☆ときめきサイエンス」における高校生向けの研究紹介、「イノベーション・ジャパン2019」（2019年8月28日～30日）や「クロスヘルスEXPO2019」（2019年10月9日～11日）、西日本国際福祉機器展（2019年11月14日～16日）、JST新技術説明会（2019年12月10日）、シーズ・ニーズマッチング交流会（2020年1月14日～15日）などで読唇技術に関する研究成果を出展し、本研究成果を社会に発信した。
Research Progress Status	令和元年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和元年度が最終年度であるため、記入しない。

Research Products
(20 results)

All 2020 2019

All Presentation (19 results) Patent(Industrial Property Rights) (1 results)

[Presentation] マルチモーダル音声強調に対するCycle-Consistencyの導入の検討2020
- Author(s)
  池上凌，大村英史，桂田浩一
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] StarGAN-VCモデルにおける潜在表現への制約の有効性について2020
- Author(s)
  柴宮怜，大村英史，桂田浩一
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] 音声想起時脳波中の音節識別について2019
- Author(s)
  深井健大郎，大村英史，桂田浩一，新田恒雄
- Organizer
  人工知能学会第33回全国大会
[Presentation] Universal Transformerを使用した対話破綻検出2019
- Author(s)
  桑原健太，大村英史，桂田浩一
- Organizer
  人工知能学会第33回全国大会
[Presentation] LSTMを用いた分類問題における判断根拠可視化の検討2019
- Author(s)
  齊藤剛史，徳永旭将
- Organizer
  第22回　画像の認識・理解シンポジウム（MIRU2019）
[Presentation] LiP25w: Word-level Lip Reading Web Application for Smart Device2019
- Author(s)
  Takeshi Saitoh and Michiko Kubokawa
- Organizer
  Proc. of 15th International Conference on Auditory-Visual Speech Processing (AVSP2019)
[Presentation] Lip Reading Experiments for Multiple Databases Using Conventional Method2019
- Author(s)
  Tatsuya Shirakata and Takeshi Saitoh
- Organizer
  Proc. of SICE Annual Conference
[Presentation] LiP25w: スマートデバイスで単語読唇2019
- Author(s)
  齊藤剛史，白方達也
- Organizer
  フォーラム顔学2019
[Presentation] 介護時会話を想定した少数語彙世界における黙声単語認識の一手法2019
- Author(s)
  永井秀利，左島綾乃，中村貞吾
- Organizer
  電気関係学会九州支部連合大会
[Presentation] 音声想起脳波からの言語表象抽出と音節認識2019
- Author(s)
  深井健大郎，大村英史，桂田浩一，平田里佳，入部百合絵，付明川，田口亮，新田恒雄
- Organizer
  電子情報通信学会 2019年10月WIT/SP/SSRW研究会
[Presentation] 音声想起時脳波の単語尤度ベクトルを用いた単語認識2019
- Author(s)
  平田里佳，入部百合絵，深井健大郎，桂田浩一，新田恒雄
- Organizer
  電子情報通信学会 2019年10月WIT/SP/SSRW研究会
[Presentation] Real-Time Silent Speech BCI with Japanese Hiragana2019
- Author(s)
  Gaborit Sylvain, Toshimasa Yamazaki
- Organizer
  電子情報通信学会 2019年10月WIT/SP/SSRW研究会
[Presentation] Discriminability among Japanese vowels using early components in silent-speech-related potentials2019
- Author(s)
  Sho Tsukiyama, Toshimasa Yamazaki
- Organizer
  電子情報通信学会 2019年10月WIT/SP/SSRW研究会
[Presentation] 黙声孤立単音認識における表面筋電チャネルごとの活動開始位置推定時の曖昧さ低減2019
- Author(s)
  永井秀利
- Organizer
  電子情報通信学会 2019年10月WIT/SP/SSRW研究会
[Presentation] 神経難病患者の口形認識に関する研究2019
- Author(s)
  中村祐哉，齊藤剛史，伊藤和幸
- Organizer
  電子情報通信学会 2019年10月WIT/SP/SSRW研究会
[Presentation] 介護時会話を想定した少数語彙世界における黙声単語認識の一手法2019
- Author(s)
  永井秀利，左島綾乃，中村貞吾
- Organizer
  電子情報通信学会 2019年10月WIT/SP/SSRW研究会
[Presentation] 3DCNNとBidirectional GRUを用いた読唇2019
- Author(s)
  小口優人，大村英史，桂田浩一
- Organizer
  第6回サイレント音声認識ワークショップ
[Presentation] 深層学習とAdaBoostによる連続発話画像の認識2019
- Author(s)
  嶺山広樹，山下遼真，中島成穂，磯部真之介，田村哲嗣，速水悟
- Organizer
  第6回サイレント音声認識ワークショップ
[Presentation] 3DCNNを用いた口唇画像の発話認識2019
- Author(s)
  山下遼真，速水悟，田村哲嗣，嶺山広樹，赤澤玲，中島成穂，磯部真之介，西脇拓実，前田翼
- Organizer
  第6回サイレント音声認識ワークショップ
[Patent(Industrial Property Rights)] 読唇装置及び読唇方法2019
- Inventor(s)
  齊藤剛史
- Industrial Property Rights Holder
  齊藤剛史
- Industrial Property Rights Type
  特許
- Industrial Property Number
  特願2019-213234

2019 Fiscal Year Annual Research Report

マルチモーダルサイレント音声認識技術に関する研究

Principal Investigator

齊藤 剛史 九州工業大学, 大学院情報工学研究院, 准教授 (10379654)

Research Products

[Presentation] マルチモーダル音声強調に対するCycle-Consistencyの導入の検討2020

Author(s)

Organizer

[Presentation] StarGAN-VCモデルにおける潜在表現への制約の有効性について2020

Author(s)

Organizer

[Presentation] 音声想起時脳波中の音節識別について2019

Author(s)

Organizer

[Presentation] Universal Transformerを使用した対話破綻検出2019

Author(s)

Organizer

[Presentation] LSTMを用いた分類問題における判断根拠可視化の検討2019

Author(s)

Organizer

[Presentation] LiP25w: Word-level Lip Reading Web Application for Smart Device2019

Author(s)

Organizer

[Presentation] Lip Reading Experiments for Multiple Databases Using Conventional Method2019

Author(s)

Organizer

[Presentation] LiP25w: スマートデバイスで単語読唇2019

Author(s)

Organizer

[Presentation] 介護時会話を想定した少数語彙世界における黙声単語認識の一手法2019

Author(s)

Organizer

[Presentation] 音声想起脳波からの言語表象抽出と音節認識2019

Author(s)

Organizer

[Presentation] 音声想起時脳波の単語尤度ベクトルを用いた単語認識2019

Author(s)

Organizer

[Presentation] Real-Time Silent Speech BCI with Japanese Hiragana2019

Author(s)

Organizer

[Presentation] Discriminability among Japanese vowels using early components in silent-speech-related potentials2019

Author(s)

Organizer

[Presentation] 黙声孤立単音認識における表面筋電チャネルごとの活動開始位置推定時の曖昧さ低減2019

Author(s)

Organizer

[Presentation] 神経難病患者の口形認識に関する研究2019

Author(s)

Organizer

[Presentation] 介護時会話を想定した少数語彙世界における黙声単語認識の一手法2019

Author(s)

Organizer

[Presentation] 3DCNNとBidirectional GRUを用いた読唇2019

Author(s)

Organizer

[Presentation] 深層学習とAdaBoostによる連続発話画像の認識2019

Author(s)

Organizer

[Presentation] 3DCNNを用いた口唇画像の発話認識2019

Author(s)

Organizer

[Patent(Industrial Property Rights)] 読唇装置及び読唇方法2019

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Industrial Property Number

齊藤剛史九州工業大学, 大学院情報工学研究院, 准教授 (10379654)