研究課題/領域番号 |
20K19862
|
研究機関 | 神戸大学 |
研究代表者 |
高島 遼一 神戸大学, 都市安全研究センター, 准教授 (50846102)
|
研究期間 (年度) |
2020-04-01 – 2022-03-31
|
キーワード | 音声認識 / 構音障害 / 障害者支援技術 / 機械学習 / ニューラルネットワーク |
研究実績の概要 |
本研究では、大量の学習データを得ることが難しい構音障害者を対象として、高精度な音声認識モデルの構築を目指している。少量の学習データで音声認識モデルを学習するための方法として、本年度はTransfer learningとSelf-supervised learningに基づく方法を複数検討した。Transfer learningに基づく方式では、大量に存在する健常者の学習データを活用することで、構音障害者の学習データ不足を補う。提案方式では、最初に健常者データを用いて健常者用の音声認識モデルを学習し、その後、複数の構音障害者データを用いて不特定構音障害者用の音声認識モデルへモデル適応を行う。さらに、不特定構音障害者モデルを、ターゲットの構音障害者データへ適応を行うという、2段階のTransfer learningを行う。提案方式により、従来の性能を上回る特定障害者音声認識モデルを学習できた。Self-supervised learningは、ラベルの無いデータを活用することで、性能の良い初期モデルを学習する方法の一つである。構音障害者の音声データを得るためには、事前に用意した台本を障害者の方に読んで頂くケースが多いが、この方法は障害者の方への負担が大きいため、大量にデータを収集することが困難である。一方、日常の自由発話を収録する方法を用いれば、音声データ自体は比較的多く収録できるが、構音障害者音声に対して正解ラベルを付与することが非常に困難という問題がある。Self-supervised learningを用いることで、自由発話を活用することが可能となり、それにより少量のラベル有りデータを用いる場合よりも高い音声認識性能を示すモデルが学習できた。今後は、Self-supervised learningの方式をさらにエンハンスすることで性能改善を行うとともに、引き続き構音障害者の音声データ収集を行っていく。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究計画では本年度は、主にTransfer learningを用いて健常者音声の活用による性能改善を試みる予定であった。本年度は予定通りTransfer learningによる性能改善を行えたのに加えて、Self-supervised learningを用いた構音障害者の自由発話の活用による性能改善も検討でき、成果を挙げることができた。これらの成果は国際会議であるICASSP2020、GCCE2020、全国大会である日本音響学会2020年研究発表会などで発表済みである。
|
今後の研究の推進方策 |
特にSelf-supervised learningに関して検討を進めていく。現状では既存のSelf-supervised learning方式を利用しているが、構音障害者の音声の特性に合わせた、さらに性能の高い手法を検討する予定である。また、現状は脳性麻痺患者のみを対象としているが、口唇口蓋裂者や脊髄性筋萎縮症者といった他の種別の構音障害者のデータも収録し、音声認識モデルを構築していく。
|