2018 Fiscal Year Annual Research Report

機械学習を用いた脳性麻痺構音障がい者の音声認識

Research Project

Project/Area Number	17J04380
Research Institution	Kobe University
Principal Investigator	高島悠樹神戸大学, システム情報学研究科, 特別研究員(DC1)
Project Period (FY)	2017-04-26 – 2020-03-31
Keywords	データ拡張 / マルチリンガル
Outline of Annual Research Achievements	アテトーゼ型脳性麻痺による構音障がい者にとって、発話行為は身体への負担が大きく、大量の発話を行うことができない。そのため、モデルの学習データとして使用できるデータ量は限られてくる。少量データによる構音障がい者音声認識システム構築のためのアプローチとして、学習データの拡張、あるいは、モデルパラメータ数の削減が考えられる。本年度は、学習データ量を擬似的に増加させる手法として、複数のデータベースを使用することを試みる。我々が対象としている日本人構音障がい者の音声は非常に限られており、研究室内で収録したものしかない。しかし、外国人構音障がい者の音声データベースは、利用可能なものがいくつか公開されている。そこで、これらのコーパスを利用することを試みる。構音障害音声らしさ、は言語が異なっても共通であるため、本研究では構音障害英語発話を用いたデータ拡張を提案する。また、言語が同じであれば、構音障害の有無に関わらず言語的性質は共通であると仮定し、日本人健常者の音声を用いたデータ拡張も提案する。深層学習による音声認識モデルを構築し、音響モジュールは構音障害を持つ英語話者と共有し、言語モジュールは日本人健常者と共有する。これにより、対象とする日本人構音障がい者の音声データが少ない場合でも、拡張先データベースのデータが大量にあれば、十分に学習されたモデルを得ることができると期待される。音素認識実験により、提案手法の有効性を示した。この研究成果は国際学会に採択され発表を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason アテトーゼ型脳性麻痺による構音障がい者の音声の量は限られており、少量データによるモデル化が必要となる。そこで、本年度は構音障害を持つ英語話者と日本人健常者の音声を用いた、音声認識のためのデータ拡張法を提案した。健常者であれば安定した発話が可能であるが、構音障がい者は、筋肉の不随意運動により安定した発話を行うことができず、その音声は非常に聞き取りづらいものとなる。また、意図した発話内容と実際の発話内容が異なる場合がある、つまり、音の欠落や置換が起こりうる。本年度提案した音声認識モデルの認識結果を分析すると、子音の欠落や母音が連続するなど、構音障がい者発話固有の特徴を捉えていることが確認された。つまり、この傾向を分析することで、認識誤りの訂正や構音障がい者固有の音素体系の解明に繋がると考えられる。前者は今年度の研究目標、後者は全体としての研究目的でもあり、研究がおおむね順調に進展したと考えられる。
Strategy for Future Research Activity	本年度提案した障がい者音声認識システムでは、構音障害を持つ英語話者と日本人健常者の音声を用いてデータ拡張を行なったが、評価対象である日本人障害者の学習データもある程度必要としていた。しかし、構音障がい者はアテトーゼ症状により、発話による身体への負担が大きく、話者によっては学習データの収録が極めて困難な場合もある。そこで、評価対象となる構音障がい者の音声を全く使用しないで学習する音声認識システムを提案する。外国人構音障がい者、日本人健常者、および評価話者以外の日本人構音障がい者の音声を用いることで、障害音声らしさを獲得し、かつ話者非依存な構音障がい者音声認識システムを構築する。さらに、認識誤りの傾向から、誤りやすい音素や発話しにくい単語の分析を行う。構音障がい者の発話スタイルは健常者とは異なるため、独自の音素体系となっていることが考えられる。構音障がい者固有の音素体系を明らかにすることで、話者ごとに発話しやすい単語・発話しにくい単語の提案が行える。また、本年度はこれまで提案した音声認識システムをアプリケーションシステムとして実装し、実際の環境で有効性を検証する。

Research Products
(5 results)

All 2019 2018

All Presentation (5 results) (of which Int'l Joint Research: 1 results)

[Presentation] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019
- Author(s)
  Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
- Organizer
  International Workshop on Frontiers of Computer Vision
- Int'l Joint Research
[Presentation] 複数データベースを使用したend-to-end構音障害者音声認識2019
- Author(s)
  高島悠樹, 滝口哲也, 有木康雄
- Organizer
  日本音響学会2019年春季研究発表会
[Presentation] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018
- Author(s)
  高島悠樹，滝口哲也，有木康雄
- Organizer
  日本音響学会2018年秋季研究発表会
[Presentation] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018
- Author(s)
  高島悠樹, 滝口哲也, 有木康雄
- Organizer
  第21回画像の認識・理解シンポジウム
[Presentation] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018
- Author(s)
  高島悠樹, 滝口哲也, 有木康雄
- Organizer
  電子情報通信学会

2018 Fiscal Year Annual Research Report

機械学習を用いた脳性麻痺構音障がい者の音声認識

Principal Investigator

高島 悠樹 神戸大学, システム情報学研究科, 特別研究員(DC1)

Current Status of Research Progress

Reason

Research Products

[Presentation] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019

Author(s)

Organizer

[Presentation] 複数データベースを使用したend-to-end構音障害者音声認識2019

Author(s)

Organizer

[Presentation] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018

Author(s)

Organizer

[Presentation] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018

Author(s)

Organizer

[Presentation] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018

Author(s)

Organizer

高島悠樹神戸大学, システム情報学研究科, 特別研究員(DC1)