研究課題
特別研究員奨励費
アテトーゼ型脳性麻痺による構音障がい者にとって,発話行為は身体への負担が大きく,大量の発話を行うことは難しい.そのため,学習データとして使えるデータ量は限られてくる.そこで,構音障害を持つ目標話者の限られた発話量から学習可能な音声認識システムの構築が必要となる.本研究では,構音障害を持つ英語話者,及び日本人健常者の音声を用いた転移学習を提案する.構音障害を持つ日本語話者を対象とした音声コーパスは存在せず,我々の研究室で収録したものしかないため,データ量は非常に限られている.しかし,構音障害を持つ外国語話者の音声コーパスは利用可能なものがいくつか公開されている.また,日本人健常者の音声コーパスも多く公開されている.提案手法ではこれらのデータベースを用いてモデルパラメータを初期化することで,目標話者の少量データからでも十分な学習を可能にする.しかし,従来の音声認識モデルは複数言語での利用はできなかった.そこで,言語固有の音素推定器を持つモデルを提案し,複数言語での学習を可能にした.提案手法により,構音障害固有の音響的特徴は英語障がい者発話から,日本語生成に必要な言語的特徴は日本語健常者発話から転移させることが期待できる.音素認識実験により,追加のデータベースを用いることで認識性能を大きく向上させることが確認された.この研究成果は1件の英文学術論文誌に採択されている.また,音声だけでなく唇動画像も用いたマルチモーダル音声認識に関する研究も行った.複数モーダルの利用は特徴量の補完という観点から障がい者への応用も期待できる.音声認識モデルにより学習された情報を用いて唇画像モデルを学習する知識蒸留技術に基づき,唇の動きから発話内容を認識するリップリーディングの性能向上を達成し,さらに,それに基づくモデル適応を提案した.この手法は国内学会にて発表済みであり,英文論文誌へ投稿予定である.
令和元年度が最終年度であるため、記入しない。
すべて 2020 2019 2018 2017
すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件、 オープンアクセス 2件) 学会発表 (14件) (うち国際学会 4件)
EURASIP Journal on Audio, Speech, and Music Processing
巻: 17 号: 1 ページ: 1-17
10.1186/s13636-019-0160-1
120006733154
IEEE Access
巻: 7 ページ: 164320-164326
10.1109/access.2019.2951856
120006818768