2023 年度実績報告書

複数センサの融合による発声動作からの発話内容の推定と発声補助デバイスへの応用

研究課題

研究課題/領域番号	21K11941
研究機関	日本工業大学
研究代表者	大田健紘日本工業大学, 基幹工学部, 助教 (50511911)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	深層学習 / 無発声音声認識 / 三次元計測
研究実績の概要	最終年度は、前年度までの成果をもとに、主に音声情報を用いない音声認識（無発声音声認識）であっても音声を用いた音声認識と同様に日本語文の認識を実現する手法を検討した。また、発声補助デバイス開発の基礎検討として、話者の感情推定及びテキストからの音声合成についても取り組んだ。無発声音声認識については音素を単位として文章を認識するために、前年度の成果をもとに認識に有効な深層ニューラルネットワーク（DNN）について検討した。DNNの汎化性能を向上させることで、学習に用いた文章ではあるが未知の話者であっても0.3程度の音素誤り率が得られることがあった。話者の感情推定についてはカメラにより撮影した映像から心拍変動を計測する映像脈波計測技術及び皮膚電気反応を組み合わせた手法について検討した。音声合成については、tacotron2とwaveglow及び転移学習を用いた音声合成システムを用いて合成された音声の音質、話者性、明瞭性について検討した。ただし、感情推定及び音声合成については十分なデータでの検証ができていないため、引き続き、データ収集及び性能の検証が必要である。本研究では、研究期間全体を通して声帯を除去するなど発声が困難となった人の発話の補助や、既存の音声認識を補助するシステムの検討を目的とした。結果として、音声を用いることなく音素単位での文章認識を実現するための技術について検討ができた。また、発声補助デバイスとして実現することを考えた場合、スマートフォンなどの小型デバイスに搭載されているカメラに加えて、指の皮膚電気抵抗を計測するセンサを搭載することで、利用者の負担となることなく、発話内容及び感情を同時推定するための基礎検証ができた。

研究成果
(2件)

すべて 2024 2023

すべて学会発表 (2件) (うち国際学会 1件)

[学会発表] 口唇特徴点の時系列データに基づいた日本語機械読唇手法の検討2024
- 著者名/発表者名
  大田健紘、久保　茜、倉島　廉
- 学会等名
  電子情報通信学会
[学会発表] Silent speech recognition using data augmentation based on a 3D lip model2023
- 著者名/発表者名
  Kenko Ota
- 学会等名
  Acoustical society of America
- 国際学会