• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

機械学習を用いた脳性麻痺構音障がい者の音声認識

Research Project

Project/Area Number 17J04380
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Perceptual information processing
Research InstitutionKobe University

Principal Investigator

高島 悠樹  神戸大学, システム情報学研究科, 特別研究員(DC1)

Project Period (FY) 2017-04-26 – 2020-03-31
Project Status Completed (Fiscal Year 2019)
Budget Amount *help
¥2,500,000 (Direct Cost: ¥2,500,000)
Fiscal Year 2019: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2018: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2017: ¥900,000 (Direct Cost: ¥900,000)
Keywords転移学習 / マルチリンガル / マルチモーダル / データ拡張 / 声質変換
Outline of Annual Research Achievements

アテトーゼ型脳性麻痺による構音障がい者にとって,発話行為は身体への負担が大きく,大量の発話を行うことは難しい.そのため,学習データとして使えるデータ量は限られてくる.そこで,構音障害を持つ目標話者の限られた発話量から学習可能な音声認識システムの構築が必要となる.
本研究では,構音障害を持つ英語話者,及び日本人健常者の音声を用いた転移学習を提案する.構音障害を持つ日本語話者を対象とした音声コーパスは存在せず,我々の研究室で収録したものしかないため,データ量は非常に限られている.しかし,構音障害を持つ外国語話者の音声コーパスは利用可能なものがいくつか公開されている.また,日本人健常者の音声コーパスも多く公開されている.提案手法ではこれらのデータベースを用いてモデルパラメータを初期化することで,目標話者の少量データからでも十分な学習を可能にする.しかし,従来の音声認識モデルは複数言語での利用はできなかった.そこで,言語固有の音素推定器を持つモデルを提案し,複数言語での学習を可能にした.提案手法により,構音障害固有の音響的特徴は英語障がい者発話から,日本語生成に必要な言語的特徴は日本語健常者発話から転移させることが期待できる.音素認識実験により,追加のデータベースを用いることで認識性能を大きく向上させることが確認された.この研究成果は1件の英文学術論文誌に採択されている.
また,音声だけでなく唇動画像も用いたマルチモーダル音声認識に関する研究も行った.複数モーダルの利用は特徴量の補完という観点から障がい者への応用も期待できる.音声認識モデルにより学習された情報を用いて唇画像モデルを学習する知識蒸留技術に基づき,唇の動きから発話内容を認識するリップリーディングの性能向上を達成し,さらに,それに基づくモデル適応を提案した.この手法は国内学会にて発表済みであり,英文論文誌へ投稿予定である.

Research Progress Status

令和元年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和元年度が最終年度であるため、記入しない。

Report

(3 results)
  • 2019 Annual Research Report
  • 2018 Annual Research Report
  • 2017 Annual Research Report
  • Research Products

    (16 results)

All 2020 2019 2018 2017

All Journal Article (2 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (14 results) (of which Int'l Joint Research: 4 results)

  • [Journal Article] Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition2019

    • Author(s)
      Yuki Takashima, Toru Nakashika, Tetsuya Takiguchi, and Yasuo Ariki
    • Journal Title

      EURASIP Journal on Audio, Speech, and Music Processing

      Volume: 17 Issue: 1 Pages: 1-17

    • DOI

      10.1186/s13636-019-0160-1

    • NAID

      120006733154

    • Related Report
      2019 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] Knowledge transferability between the speech data of persons with dysarthria speaking different languages for dysarthric speech recognition2019

    • Author(s)
      Yuki Takashima, Ryoichi Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Journal Title

      IEEE Access

      Volume: 7 Pages: 164320-164326

    • DOI

      10.1109/access.2019.2951856

    • NAID

      120006818768

    • Related Report
      2019 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] 深層距離学習に基づく構音障害者音声認識2020

    • Author(s)
      高島 悠樹,高島 遼一,滝口 哲也,有木 康雄
    • Organizer
      電子情報通信学会技術研究報告
    • Related Report
      2019 Annual Research Report
  • [Presentation] クロスモーダル知識蒸留に基づくLip readingのための教師なしドメイン適応2020

    • Author(s)
      高島 悠樹,相原 龍,高島 遼一,滝口 哲也,有木 康雄,村山 修
    • Organizer
      日本音響学会2020春季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] End-To-End Dysarthric Speech Recognition Using Multiple Databases2019

    • Author(s)
      Takashima Yuki、Takiguchi Tetsuya、Ariki Yasuo
    • Organizer
      IEEE International Conference on Acoustics, Speech, and Signal Processing
    • Related Report
      2019 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Lip readingのためのクロスモーダルTeacher-Student学習2019

    • Author(s)
      高島 悠樹,相原 龍,高島 遼一,滝口 哲也,有木 康雄,村山 修
    • Organizer
      日本音響学会2019年秋季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 構音障害者音声認識のための健常者音声及び他言語障害者音声を用いた転移学習2019

    • Author(s)
      高島 悠樹,高島 遼一,滝口 哲也,有木 康雄
    • Organizer
      電子情報通信学会技術研究報告
    • Related Report
      2019 Annual Research Report
  • [Presentation] Exemplar-based Lip-to-Speech Synthesis Using Convolutional Neural Networks2019

    • Author(s)
      Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      International Workshop on Frontiers of Computer Vision
    • Related Report
      2018 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 複数データベースを使用したend-to-end構音障害者音声認識2019

    • Author(s)
      高島 悠樹, 滝口 哲也, 有木 康雄
    • Organizer
      日本音響学会2019年春季研究発表会
    • Related Report
      2018 Annual Research Report
  • [Presentation] 非負値行列因子分解に基づく構音障害者音声の高域付加の検討2018

    • Author(s)
      高島 悠樹,滝口 哲也,有木 康雄
    • Organizer
      日本音響学会2018年秋季研究発表会
    • Related Report
      2018 Annual Research Report
  • [Presentation] ハイスピードカメラ画像を用いた唇動画像からの音声生成2018

    • Author(s)
      高島悠樹, 滝口 哲也, 有木 康雄
    • Organizer
      第21回画像の認識・理解シンポジウム
    • Related Report
      2018 Annual Research Report
  • [Presentation] End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張2018

    • Author(s)
      高島 悠樹, 滝口 哲也, 有木 康雄
    • Organizer
      電子情報通信学会
    • Related Report
      2018 Annual Research Report
  • [Presentation] PARALLEL-DATA-FREE DICTIONARY LEARNING FOR VOICE CONVERSION USING NON-NEGATIVE TUCKER DECOMPOSITION2018

    • Author(s)
      Yuki Takashima, Hajime Yano, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
    • Organizer
      IEEE International Conference on Acoustics, Speech and Signal Processing
    • Related Report
      2017 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 非負値タッカー分解による NMF 辞書学習に基づく非パラレル声質変換2018

    • Author(s)
      高島悠樹, 矢野肇, 中鹿亘, 滝口哲也, 有木康雄
    • Organizer
      日本音響学会2018年春季研究発表会
    • Related Report
      2017 Annual Research Report
  • [Presentation] Audio-Visual Speech Recognition for a Person with Severe Hearing Loss Using Deep Canonical Correlation Analysis2017

    • Author(s)
      Yuki Takashima, Tetsuya Takiguchi, Yasuo Ariki, Kiyohiro Omori
    • Organizer
      1st International Workshop on Challenges in Hearing Assistive Technology
    • Related Report
      2017 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 重度難聴者音声認識のための Deep Canonical Correlation Analysis を用いた音響特徴量抽出の検討2017

    • Author(s)
      高島悠樹, 滝口哲也, 有木康雄
    • Organizer
      日本音響学会2017年秋季研究発表会
    • Related Report
      2017 Annual Research Report

URL: 

Published: 2017-05-25   Modified: 2024-03-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi