機械学習を用いた脳性麻痺構音障がい者の音声認識

Research Project

Project/Area Number	17J04380
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Perceptual information processing
Research Institution	Kobe University
Principal Investigator	高島悠樹神戸大学, システム情報学研究科, 特別研究員(DC1)
Project Period (FY)	2017-04-26 – 2020-03-31
Project Status	Completed (Fiscal Year 2019)
Budget Amount *help	¥2,500,000 (Direct Cost: ¥2,500,000) Fiscal Year 2019: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
Keywords	転移学習 / マルチリンガル / マルチモーダル / データ拡張 / 声質変換
Outline of Annual Research Achievements	アテトーゼ型脳性麻痺による構音障がい者にとって，発話行為は身体への負担が大きく，大量の発話を行うことは難しい．そのため，学習データとして使えるデータ量は限られてくる．そこで，構音障害を持つ目標話者の限られた発話量から学習可能な音声認識システムの構築が必要となる．本研究では，構音障害を持つ英語話者，及び日本人健常者の音声を用いた転移学習を提案する．構音障害を持つ日本語話者を対象とした音声コーパスは存在せず，我々の研究室で収録したものしかないため，データ量は非常に限られている．しかし，構音障害を持つ外国語話者の音声コーパスは利用可能なものがいくつか公開されている．また，日本人健常者の音声コーパスも多く公開されている．提案手法ではこれらのデータベースを用いてモデルパラメータを初期化することで，目標話者の少量データからでも十分な学習を可能にする．しかし，従来の音声認識モデルは複数言語での利用はできなかった．そこで，言語固有の音素推定器を持つモデルを提案し，複数言語での学習を可能にした．提案手法により，構音障害固有の音響的特徴は英語障がい者発話から，日本語生成に必要な言語的特徴は日本語健常者発話から転移させることが期待できる．音素認識実験により，追加のデータベースを用いることで認識性能を大きく向上させることが確認された．この研究成果は1件の英文学術論文誌に採択されている．また，音声だけでなく唇動画像も用いたマルチモーダル音声認識に関する研究も行った．複数モーダルの利用は特徴量の補完という観点から障がい者への応用も期待できる．音声認識モデルにより学習された情報を用いて唇画像モデルを学習する知識蒸留技術に基づき，唇の動きから発話内容を認識するリップリーディングの性能向上を達成し，さらに，それに基づくモデル適応を提案した．この手法は国内学会にて発表済みであり，英文論文誌へ投稿予定である．
Research Progress Status	令和元年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和元年度が最終年度であるため、記入しない。

Report

(3 results)

Research Products
(16 results)

All 2020 2019 2018 2017

All Journal Article (2 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Open Access: 2 results) Presentation (14 results) (of which Int'l Joint Research: 4 results)

[Journal Article] Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition2019
- Author(s)
  Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, and Yasuo Ariki
- Journal Title
  
  EURASIP Journal on Audio, Speech, and Music Processing
  
  Volume: 17 Issue: 1 Pages: 1-17
- DOI
  10.1186/s13636-019-0160-1
- NAID
  120006733154
- Related Report
  2019 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Knowledge transferability between the speech data of persons with dysarthria speaking different languages for dysarthric speech recognition2019
- Author(s)
  Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
- Journal Title
  
  IEEE Access
  
  Volume: 7 Pages: 164320-164326
- DOI
  10.1109/access.2019.2951856
- NAID
  120006818768
- Related Report
  2019 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Presentation] 深層距離学習に基づく構音障害者音声認識2020
- Author(s)
  高島悠樹，高島遼一，滝口哲也，有木康雄
- Organizer
  電子情報通信学会技術研究報告
- Related Report
  2019 Annual Research Report
[Presentation] クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応2020
- Author(s)
  高島悠樹，相原龍，高島遼一，滝口哲也，有木康雄，村山修
- Organizer
  日本音響学会2020春季研究発表会
- Related Report
  2019 Annual Research Report
[Presentation] End-To-End Dysarthric Speech Recognition Using Multiple Databases2019
- Author(s)
  Takashima Yuki、Takiguchi Tetsuya、Ariki Yasuo
- Organizer
  IEEE International Conference on Acoustics, Speech, and Signal Processing
- Related Report
  2019 Annual Research Report
- Int'l Joint Research
[Presentation] Lip readingのためのクロスモーダルTeacher-Student学習2019
- Author(s)
  高島悠樹，相原龍，高島遼一，滝口哲也，有木康雄，村山修
- Organizer
  日本音響学会2019年秋季研究発表会
- Related Report
  2019 Annual Research Report
[Presentation] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019
- Author(s)
  高島悠樹，高島遼一，滝口哲也，有木康雄
- Organizer
  電子情報通信学会技術研究報告
- Related Report
  2019 Annual Research Report
[Presentation] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019
- Author(s)
  Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
- Organizer
  International Workshop on Frontiers of Computer Vision
- Related Report
  2018 Annual Research Report
- Int'l Joint Research
[Presentation] 複数データベースを使用したend-to-end構音障害者音声認識2019
- Author(s)
  高島悠樹, 滝口哲也, 有木康雄
- Organizer
  日本音響学会2019年春季研究発表会
- Related Report
  2018 Annual Research Report
[Presentation] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018
- Author(s)
  高島悠樹，滝口哲也，有木康雄
- Organizer
  日本音響学会2018年秋季研究発表会
- Related Report
  2018 Annual Research Report
[Presentation] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018
- Author(s)
  高島悠樹, 滝口哲也, 有木康雄
- Organizer
  第21回画像の認識・理解シンポジウム
- Related Report
  2018 Annual Research Report
[Presentation] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018
- Author(s)
  高島悠樹, 滝口哲也, 有木康雄
- Organizer
  電子情報通信学会
- Related Report
  2018 Annual Research Report
[Presentation] PARALLEL-DATA-FREE DICTIONARY LEARNING FOR VOICE CONVERSION USING NON-NEGATIVE TUCKER DECOMPOSITION2018
- Author(s)
  Yuki Takashima, Hajime Yano, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
- Organizer
  IEEE International Conference on Acoustics, Speech and Signal Processing
- Related Report
  2017 Annual Research Report
- Int'l Joint Research
[Presentation] 非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換2018
- Author(s)
  高島悠樹, 矢野肇, 中鹿亘, 滝口哲也, 有木康雄
- Organizer
  日本音響学会2018年春季研究発表会
- Related Report
  2017 Annual Research Report
[Presentation] Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis2017
- Author(s)
  Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki, Kiyohiro Omori
- Organizer
  1st International Workshop on Challenges in Hearing Assistive Technology
- Related Report
  2017 Annual Research Report
- Int'l Joint Research
[Presentation] 重度難聴者音声認識のための Deep Canonical Correlation Analysis を用いた音響特徴量抽出の検討2017
- Author(s)
  高島悠樹, 滝口哲也, 有木康雄
- Organizer
  日本音響学会2017年秋季研究発表会
- Related Report
  2017 Annual Research Report

機械学習を用いた脳性麻痺構音障がい者の音声認識

Principal Investigator

高島 悠樹 神戸大学, システム情報学研究科, 特別研究員(DC1)

¥2,500,000 (Direct Cost: ¥2,500,000)

Report

Research Products

[Journal Article] Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition2019

Author(s)

Journal Title

DOI

NAID

Related Report

[Journal Article] Knowledge transferability between the speech data of persons with dysarthria speaking different languages for dysarthric speech recognition2019

Author(s)

Journal Title

DOI

NAID

Related Report

[Presentation] 深層距離学習に基づく構音障害者音声認識2020

Author(s)

Organizer

Related Report

[Presentation] クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応2020

Author(s)

Organizer

Related Report

[Presentation] End-To-End Dysarthric Speech Recognition Using Multiple Databases2019

Author(s)

Organizer

Related Report

[Presentation] Lip readingのためのクロスモーダルTeacher-Student学習2019

Author(s)

Organizer

Related Report

[Presentation] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019

Author(s)

Organizer

Related Report

[Presentation] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019

Author(s)

Organizer

Related Report

[Presentation] 複数データベースを使用したend-to-end構音障害者音声認識2019

Author(s)

Organizer

Related Report

[Presentation] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018

Author(s)

Organizer

Related Report

[Presentation] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018

Author(s)

Organizer

Related Report

[Presentation] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018

Author(s)

Organizer

Related Report

[Presentation] PARALLEL-DATA-FREE DICTIONARY LEARNING FOR VOICE CONVERSION USING NON-NEGATIVE TUCKER DECOMPOSITION2018

Author(s)

Organizer

Related Report

[Presentation] 非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換2018

Author(s)

Organizer

Related Report

[Presentation] Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis2017

Author(s)

Organizer

Related Report

[Presentation] 重度難聴者音声認識のための Deep Canonical Correlation Analysis を用いた音響特徴量抽出の検討2017

Author(s)

Organizer

Related Report

高島悠樹神戸大学, システム情報学研究科, 特別研究員(DC1)