Construction of acoustic model on small training data for dysarthric speech recognition
Project/Area Number |
20K19862
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kobe University |
Principal Investigator |
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2020: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | 音声認識 / 構音障害 / 障害者支援技術 / 機械学習 / ニューラルネットワーク |
Outline of Research at the Start |
本研究では、構音障害者のコミュニケーション支援を目的とした、構音障害者音声認識システムの開発を行う。構音障害者の音声は健常者の音声と特徴が大きく異なるため、個々の障害者音声に合わせたモデルの構築が必要である。しかし、モデル学習に十分な量の構音障害者音声の収集は困難なため、少量データでのモデル構築が必須である。本研究では、様々な言語、様々な構音障害症状のデータから、共通な構音障害特徴を抽出することで、個々の障害話者から得られるデータが少量でも、個々のデータ不足を補完してモデルの学習を行う手法を検討する。また実証実験を通じて、実用に耐え得るレベルの構音障害者音声認識システムの実現を目指す。
|
Outline of Final Research Achievements |
The goal of this research is to build a dysarthric speech recognition system as a communication tool for dysarthric people. One of the challenges of this research is that it is difficult to collect a sufficient amount of dysarthric speech for training the speech recognition model. In this study, we studied model training methods using transfer learning to use a large amount of normal speech and self-supervised learning to use spontaneous speech of dysarthric people, which is relatively easy to collect. In this study, we proposed multi-step transfer learning, and we proposed a method combining pseudo-labelling and self-supervised learning. We confirmed both of our proposed methods showed better performance than conventional methods.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究は構音障害者の社会的バリアを除去し、社会参加を支援することへの貢献が期待されるものである。運動障害に起因する構音障害者は手足も不自由なために手話などのコミュニケーションの代替手段が取れないケースも多いため、高精度な音声認識の実現が求められている。また本研究で特に焦点を当てている、学習データ不足の問題は構音障害者に限らず音声認識全般にわたって存在する課題であるため、本研究で提案した多段階転移および疑似ラベルと自己教師有り学習に基づく音声認識モデルの学習手法は、音声認識の広い分野において応用可能であると期待している。
|
Report
(3 results)
Research Products
(16 results)