2021 年度研究成果報告書

モバイル端末を用いたマルチモダル発声支援システムの研究

研究課題

PDF

研究課題/領域番号	19K12905
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分90150:医療福祉工学関連
研究機関	大阪工業大学
研究代表者	松井謙二大阪工業大学, ロボティクス&デザイン工学部, 教授 (30613682)
研究分担者	中藤良久九州工業大学, 大学院工学研究院, 教授 (10599955) 加藤弓子聖マリアンナ医科大学, 医学部, 研究員 (10600463) 水町光徳九州工業大学, 大学院工学研究院, 准教授 (90380740)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	機械読唇 / 発声支援 / 変分オートエンコーダー / 口形素 / 深度画像 / 携帯端末
研究成果の概要	本研究は,喉頭摘出者のように発声が困難なユーザーに対して、“既存のデバイスが使える”,“目立たない外観である”,“使いやすいインターフェースである”という発声支援装置開発を目標としている.具体的にはスマートフォンのような携帯型のデバイスを用いた口唇認識と音声合成による発声支援装置の開発を行っている.先ずPC上で36種類の口形素を単位としてVAEとCNNを用いた画像認識による読唇を行った。次に携帯端末に実装し使用感評価を行った。また認識性能向上のため深度画像を用いて主に子音の認識性能向上を目指した。現在までに20単語、特定話者で90%程度の性能を確認している。
自由記述の分野	音声信号処理
研究成果の学術的意義や社会的意義	喉頭摘出者など病気や事故で発声が困難になった場合、電気式人工喉頭や食道発声等の代用音声を用いる．しかしこれらは使用時に目立つことや習得に時間がかかることが課題である．実際にユーザからは“既存のデバイスが使える”，“目立たない外観である”，“使いやすいインターフェースである”ことが望まれている．このことから機械読唇による発声支援が研究されている．本研究の特徴は口形素と変分オートエンコーダを用いて単語登録が極めて容易な機械読唇によるフレーズ認識方式であり、携帯端末への実装も行いその効果や課題を検証した．また、深度画像を用いて機械読唇での子音認識の精度向上を図っており、実証実験に向けて意義は大きい．