機械学習を用いた脳性麻痺構音障がい者の音声認識

研究課題

研究課題/領域番号	17J04380
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
研究分野	知覚情報処理
研究機関	神戸大学
研究代表者	高島悠樹神戸大学, システム情報学研究科, 特別研究員(DC1)
研究期間 (年度)	2017-04-26 – 2020-03-31
研究課題ステータス	完了 (2019年度)
配分額 *注記	2,500千円 (直接経費: 2,500千円) 2019年度: 800千円 (直接経費: 800千円) 2018年度: 800千円 (直接経費: 800千円) 2017年度: 900千円 (直接経費: 900千円)
キーワード	転移学習 / マルチリンガル / マルチモーダル / データ拡張 / 声質変換
研究実績の概要	アテトーゼ型脳性麻痺による構音障がい者にとって，発話行為は身体への負担が大きく，大量の発話を行うことは難しい．そのため，学習データとして使えるデータ量は限られてくる．そこで，構音障害を持つ目標話者の限られた発話量から学習可能な音声認識システムの構築が必要となる．本研究では，構音障害を持つ英語話者，及び日本人健常者の音声を用いた転移学習を提案する．構音障害を持つ日本語話者を対象とした音声コーパスは存在せず，我々の研究室で収録したものしかないため，データ量は非常に限られている．しかし，構音障害を持つ外国語話者の音声コーパスは利用可能なものがいくつか公開されている．また，日本人健常者の音声コーパスも多く公開されている．提案手法ではこれらのデータベースを用いてモデルパラメータを初期化することで，目標話者の少量データからでも十分な学習を可能にする．しかし，従来の音声認識モデルは複数言語での利用はできなかった．そこで，言語固有の音素推定器を持つモデルを提案し，複数言語での学習を可能にした．提案手法により，構音障害固有の音響的特徴は英語障がい者発話から，日本語生成に必要な言語的特徴は日本語健常者発話から転移させることが期待できる．音素認識実験により，追加のデータベースを用いることで認識性能を大きく向上させることが確認された．この研究成果は1件の英文学術論文誌に採択されている．また，音声だけでなく唇動画像も用いたマルチモーダル音声認識に関する研究も行った．複数モーダルの利用は特徴量の補完という観点から障がい者への応用も期待できる．音声認識モデルにより学習された情報を用いて唇画像モデルを学習する知識蒸留技術に基づき，唇の動きから発話内容を認識するリップリーディングの性能向上を達成し，さらに，それに基づくモデル適応を提案した．この手法は国内学会にて発表済みであり，英文論文誌へ投稿予定である．
現在までの達成度 (段落)	令和元年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和元年度が最終年度であるため、記入しない。

報告書

(3件)

研究成果
(16件)

すべて 2020 2019 2018 2017

すべて雑誌論文 (2件) (うち国際共著 1件、査読あり 2件、オープンアクセス 2件) 学会発表 (14件) (うち国際学会 4件)

[雑誌論文] Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition2019
- 著者名/発表者名
  Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, and Yasuo Ariki
- 雑誌名
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  巻: 17 号: 1 ページ: 1-17
- DOI
  10.1186/s13636-019-0160-1
- NAID
  120006733154
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Knowledge transferability between the speech data of persons with dysarthria speaking different languages for dysarthric speech recognition2019
- 著者名/発表者名
  Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
- 雑誌名
  
  IEEE Access
  
  巻: 7 ページ: 164320-164326
- DOI
  10.1109/access.2019.2951856
- NAID
  120006818768
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] 深層距離学習に基づく構音障害者音声認識2020
- 著者名/発表者名
  高島悠樹，高島遼一，滝口哲也，有木康雄
- 学会等名
  電子情報通信学会技術研究報告
- 関連する報告書
  2019 実績報告書
[学会発表] クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応2020
- 著者名/発表者名
  高島悠樹，相原龍，高島遼一，滝口哲也，有木康雄，村山修
- 学会等名
  日本音響学会2020春季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] End-To-End Dysarthric Speech Recognition Using Multiple Databases2019
- 著者名/発表者名
  Takashima Yuki、Takiguchi Tetsuya、Ariki Yasuo
- 学会等名
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] Lip readingのためのクロスモーダルTeacher-Student学習2019
- 著者名/発表者名
  高島悠樹，相原龍，高島遼一，滝口哲也，有木康雄，村山修
- 学会等名
  日本音響学会2019年秋季研究発表会
- 関連する報告書
  2019 実績報告書
[学会発表] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019
- 著者名/発表者名
  高島悠樹，高島遼一，滝口哲也，有木康雄
- 学会等名
  電子情報通信学会技術研究報告
- 関連する報告書
  2019 実績報告書
[学会発表] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019
- 著者名/発表者名
  Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
- 学会等名
  International Workshop on Frontiers of Computer Vision
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] 複数データベースを使用したend-to-end構音障害者音声認識2019
- 著者名/発表者名
  高島悠樹, 滝口哲也, 有木康雄
- 学会等名
  日本音響学会2019年春季研究発表会
- 関連する報告書
  2018 実績報告書
[学会発表] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018
- 著者名/発表者名
  高島悠樹，滝口哲也，有木康雄
- 学会等名
  日本音響学会2018年秋季研究発表会
- 関連する報告書
  2018 実績報告書
[学会発表] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018
- 著者名/発表者名
  高島悠樹, 滝口哲也, 有木康雄
- 学会等名
  第21回画像の認識・理解シンポジウム
- 関連する報告書
  2018 実績報告書
[学会発表] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018
- 著者名/発表者名
  高島悠樹, 滝口哲也, 有木康雄
- 学会等名
  電子情報通信学会
- 関連する報告書
  2018 実績報告書
[学会発表] PARALLEL-DATA-FREE DICTIONARY LEARNING FOR VOICE CONVERSION USING NON-NEGATIVE TUCKER DECOMPOSITION2018
- 著者名/発表者名
  Yuki Takashima, Hajime Yano, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
- 学会等名
  IEEE International Conference on Acoustics, Speech and Signal Processing
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] 非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換2018
- 著者名/発表者名
  高島悠樹, 矢野肇, 中鹿亘, 滝口哲也, 有木康雄
- 学会等名
  日本音響学会2018年春季研究発表会
- 関連する報告書
  2017 実績報告書
[学会発表] Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis2017
- 著者名/発表者名
  Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki, Kiyohiro Omori
- 学会等名
  1st International Workshop on Challenges in Hearing Assistive Technology
- 関連する報告書
  2017 実績報告書
- 国際学会
[学会発表] 重度難聴者音声認識のための Deep Canonical Correlation Analysis を用いた音響特徴量抽出の検討2017
- 著者名/発表者名
  高島悠樹, 滝口哲也, 有木康雄
- 学会等名
  日本音響学会2017年秋季研究発表会
- 関連する報告書
  2017 実績報告書

機械学習を用いた脳性麻痺構音障がい者の音声認識

研究代表者

高島 悠樹 神戸大学, システム情報学研究科, 特別研究員(DC1)

2,500千円 (直接経費: 2,500千円)

報告書

研究成果

[雑誌論文] Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition2019

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[雑誌論文] Knowledge transferability between the speech data of persons with dysarthria speaking different languages for dysarthric speech recognition2019

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[学会発表] 深層距離学習に基づく構音障害者音声認識2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] End-To-End Dysarthric Speech Recognition Using Multiple Databases2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Lip readingのためのクロスモーダルTeacher-Student学習2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 複数データベースを使用したend-to-end構音障害者音声認識2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] PARALLEL-DATA-FREE DICTIONARY LEARNING FOR VOICE CONVERSION USING NON-NEGATIVE TUCKER DECOMPOSITION2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] 重度難聴者音声認識のための Deep Canonical Correlation Analysis を用いた音響特徴量抽出の検討2017

著者名/発表者名

学会等名

関連する報告書

高島悠樹神戸大学, システム情報学研究科, 特別研究員(DC1)