• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

機械学習を用いた脳性麻痺構音障がい者の音声認識

研究課題

研究課題/領域番号 17J04380
研究種目

特別研究員奨励費

配分区分補助金
応募区分国内
研究分野 知覚情報処理
研究機関神戸大学

研究代表者

高島 悠樹  神戸大学, システム情報学研究科, 特別研究員(DC1)

研究期間 (年度) 2017-04-26 – 2020-03-31
研究課題ステータス 完了 (2019年度)
配分額 *注記
2,500千円 (直接経費: 2,500千円)
2019年度: 800千円 (直接経費: 800千円)
2018年度: 800千円 (直接経費: 800千円)
2017年度: 900千円 (直接経費: 900千円)
キーワード転移学習 / マルチリンガル / マルチモーダル / データ拡張 / 声質変換
研究実績の概要

アテトーゼ型脳性麻痺による構音障がい者にとって,発話行為は身体への負担が大きく,大量の発話を行うことは難しい.そのため,学習データとして使えるデータ量は限られてくる.そこで,構音障害を持つ目標話者の限られた発話量から学習可能な音声認識システムの構築が必要となる.
本研究では,構音障害を持つ英語話者,及び日本人健常者の音声を用いた転移学習を提案する.構音障害を持つ日本語話者を対象とした音声コーパスは存在せず,我々の研究室で収録したものしかないため,データ量は非常に限られている.しかし,構音障害を持つ外国語話者の音声コーパスは利用可能なものがいくつか公開されている.また,日本人健常者の音声コーパスも多く公開されている.提案手法ではこれらのデータベースを用いてモデルパラメータを初期化することで,目標話者の少量データからでも十分な学習を可能にする.しかし,従来の音声認識モデルは複数言語での利用はできなかった.そこで,言語固有の音素推定器を持つモデルを提案し,複数言語での学習を可能にした.提案手法により,構音障害固有の音響的特徴は英語障がい者発話から,日本語生成に必要な言語的特徴は日本語健常者発話から転移させることが期待できる.音素認識実験により,追加のデータベースを用いることで認識性能を大きく向上させることが確認された.この研究成果は1件の英文学術論文誌に採択されている.
また,音声だけでなく唇動画像も用いたマルチモーダル音声認識に関する研究も行った.複数モーダルの利用は特徴量の補完という観点から障がい者への応用も期待できる.音声認識モデルにより学習された情報を用いて唇画像モデルを学習する知識蒸留技術に基づき,唇の動きから発話内容を認識するリップリーディングの性能向上を達成し,さらに,それに基づくモデル適応を提案した.この手法は国内学会にて発表済みであり,英文論文誌へ投稿予定である.

現在までの達成度 (段落)

令和元年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和元年度が最終年度であるため、記入しない。

報告書

(3件)
  • 2019 実績報告書
  • 2018 実績報告書
  • 2017 実績報告書
  • 研究成果

    (16件)

すべて 2020 2019 2018 2017

すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件、 オープンアクセス 2件) 学会発表 (14件) (うち国際学会 4件)

  • [雑誌論文] Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition2019

    • 著者名/発表者名
      Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, and Yasuo Ariki
    • 雑誌名

      EURASIP Journal on Audio, Speech, and Music Processing

      巻: 17 号: 1 ページ: 1-17

    • DOI

      10.1186/s13636-019-0160-1

    • NAID

      120006733154

    • 関連する報告書
      2019 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Knowledge transferability between the speech data of persons with dysarthria speaking different languages for dysarthric speech recognition2019

    • 著者名/発表者名
      Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • 雑誌名

      IEEE Access

      巻: 7 ページ: 164320-164326

    • DOI

      10.1109/access.2019.2951856

    • NAID

      120006818768

    • 関連する報告書
      2019 実績報告書
    • 査読あり / オープンアクセス / 国際共著
  • [学会発表] 深層距離学習に基づく構音障害者音声認識2020

    • 著者名/発表者名
      高島 悠樹,高島 遼一,滝口 哲也,有木 康雄
    • 学会等名
      電子情報通信学会技術研究報告
    • 関連する報告書
      2019 実績報告書
  • [学会発表] クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応2020

    • 著者名/発表者名
      高島 悠樹,相原 龍,高島 遼一,滝口 哲也,有木 康雄,村山 修
    • 学会等名
      日本音響学会2020春季研究発表会
    • 関連する報告書
      2019 実績報告書
  • [学会発表] End-To-End Dysarthric Speech Recognition Using Multiple Databases2019

    • 著者名/発表者名
      Takashima Yuki、Takiguchi Tetsuya、Ariki Yasuo
    • 学会等名
      IEEE International Conference on Acoustics, Speech, and Signal Processing
    • 関連する報告書
      2019 実績報告書
    • 国際学会
  • [学会発表] Lip readingのためのクロスモーダルTeacher-Student学習2019

    • 著者名/発表者名
      高島 悠樹,相原 龍,高島 遼一,滝口 哲也,有木 康雄,村山 修
    • 学会等名
      日本音響学会2019年秋季研究発表会
    • 関連する報告書
      2019 実績報告書
  • [学会発表] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019

    • 著者名/発表者名
      高島 悠樹,高島 遼一,滝口 哲也,有木 康雄
    • 学会等名
      電子情報通信学会技術研究報告
    • 関連する報告書
      2019 実績報告書
  • [学会発表] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019

    • 著者名/発表者名
      Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • 学会等名
      International Workshop on Frontiers of Computer Vision
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] 複数データベースを使用したend-to-end構音障害者音声認識2019

    • 著者名/発表者名
      高島 悠樹, 滝口 哲也, 有木 康雄
    • 学会等名
      日本音響学会2019年春季研究発表会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018

    • 著者名/発表者名
      高島 悠樹,滝口 哲也,有木 康雄
    • 学会等名
      日本音響学会2018年秋季研究発表会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018

    • 著者名/発表者名
      高島悠樹, 滝口 哲也, 有木 康雄
    • 学会等名
      第21回画像の認識・理解シンポジウム
    • 関連する報告書
      2018 実績報告書
  • [学会発表] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018

    • 著者名/発表者名
      高島 悠樹, 滝口 哲也, 有木 康雄
    • 学会等名
      電子情報通信学会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] PARALLEL-DATA-FREE DICTIONARY LEARNING FOR VOICE CONVERSION USING NON-NEGATIVE TUCKER DECOMPOSITION2018

    • 著者名/発表者名
      Yuki Takashima, Hajime Yano, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] 非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換2018

    • 著者名/発表者名
      高島悠樹, 矢野肇, 中鹿亘, 滝口哲也, 有木康雄
    • 学会等名
      日本音響学会2018年春季研究発表会
    • 関連する報告書
      2017 実績報告書
  • [学会発表] Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis2017

    • 著者名/発表者名
      Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki, Kiyohiro Omori
    • 学会等名
      1st International Workshop on Challenges in Hearing Assistive Technology
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] 重度難聴者音声認識のための Deep Canonical Correlation Analysis を用いた音響特徴量抽出の検討2017

    • 著者名/発表者名
      高島悠樹, 滝口哲也, 有木康雄
    • 学会等名
      日本音響学会2017年秋季研究発表会
    • 関連する報告書
      2017 実績報告書

URL: 

公開日: 2017-05-25   更新日: 2024-03-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi