• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

構音障がい者のための声質変換

Research Project

Project/Area Number 14J04514
Research InstitutionKobe University

Principal Investigator

相原 龍  神戸大学, システム情報学研究科, 特別研究員(DC1)

Project Period (FY) 2014-04-25 – 2017-03-31
Keywords声質変換 / 障がい者支援 / 識別学習 / 発話リズム / Duration
Outline of Annual Research Achievements

声質変換は,ある話者の声をあたかも別人が発話しているかのように変換する技術である.アテトーゼ型脳性麻痺による構音障がい者の不明瞭な発話を,この声質変換技術を用いて聞き取りやすく変換することが本研究の目標である.声質変換技術はテキスト認識を行わない,音声から音声へ変換するシステムであるため,手足の動きが不自由な発話障がい者にとっても使いやすい技術であると考えられる.本年度は,声質変換精度の向上を目標として,「識別的学習」と「発話リズム変換」の2つのタスクに取り組んだ.
構音障がい者発話が不明瞭になる原因として,音素の曖昧性が指摘されている.音素は音声において分割可能な最小単位とされている.構音障がい者は,口や舌など発話する機構が不自由であるため,健常者と比較して発話が曖昧になりやすい.提案手法では,これまで我々が研究してきた,構音障がい者の声質変換で用いられてきたアルゴリズムに,音素を識別するモデルを導入し,発話が明瞭に変換されるよう改良を加えた.この研究成果は,音声信号処理において世界最大級の国際学会INTERSPEECH2016において発表された.
構音障害がい者の発話の特徴として,発話が不自然に間延びするという点がある.健常者の発話リズムは基本的に一定であるのに対して,障がい者の発話リズムは,その前後の音素の関係や発話者の体調によって大きく変化する.この発話リズムの変動が,障がい者の発話を聞き取りにくくする原因の一つとなっていた.発話リズムの変換はこれまで例が少なく,特に声質変換システムにおいて,発話リズムは入力話者のものをそのまま用いることがほとんどであった.そのため,発話リズムを変換する新たな特徴量を提案し,リズムを健常者に近づけることに成功した.これらの研究成果は日本音響学会ならびに電子情報通信学会で発表され,現在,INTERSPEECH2017に投稿中である.

Research Progress Status

28年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

28年度が最終年度であるため、記入しない。

  • Research Products

    (13 results)

All 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (11 results) (of which Int'l Joint Research: 4 results) Book (1 results)

  • [Journal Article] Multiple Non-negative Matrix Factorization for Many-to-many Voice Conversion2016

    • Author(s)
      Ryo Aihara, Testuya Takiguchi, Yasuo Ariki
    • Journal Title

      EEE/ACM Transactions on Audio, Speech, and Language Processing

      Volume: 24 Pages: 1175-1184

    • DOI

      10.1109/TASLP.2016.2522643

    • Peer Reviewed
  • [Presentation] isual-to-Speech Conversion Based on Maximum Likelihood Estimation2017

    • Author(s)
      羅里奈
    • Organizer
      MVA2017, The Fifteenth IAPR International Conference on Machine Vision Applications
    • Place of Presentation
      Nagoya University, Nagoya, Japan
    • Year and Date
      2017-05-08 – 2017-05-12
    • Int'l Joint Research
  • [Presentation] 声質変換のための音素識別的特徴量2017

    • Author(s)
      相原龍
    • Organizer
      日本音響学会2017年春季研究発表会
    • Place of Presentation
      明治大学,神奈川,日本
    • Year and Date
      2017-03-09 – 2017-03-11
  • [Presentation] 最尤変換における唇動画像からの音声生成2017

    • Author(s)
      羅里奈
    • Organizer
      日本音響学会2017年春季研究発表会
    • Place of Presentation
      明治大学,神奈川,日本
    • Year and Date
      2017-03-09 – 2017-03-11
  • [Presentation] 構音障害者のためのDurationを含んだ統計的声質変換2017

    • Author(s)
      相原龍
    • Organizer
      電子情報通信学会音声研究会(SP)
    • Place of Presentation
      沖縄産業支援センター,沖縄,日本
    • Year and Date
      2017-03-01 – 2017-03-02
  • [Presentation] 非負値行列因子分解に基づく声質変換のための Graph Embedding を用いたパラレル辞書学習2016

    • Author(s)
      相原龍
    • Organizer
      日本音響学会2016年秋季研究発表会
    • Place of Presentation
      富山大学,富山,日本
    • Year and Date
      2016-09-14 – 2016-09-16
  • [Presentation] 複素NMFを用いた声質変換の検討2016

    • Author(s)
      李権俊
    • Organizer
      日本音響学会2016年秋季研究発表会
    • Place of Presentation
      富山大学,富山,日本
    • Year and Date
      2016-09-14 – 2016-09-16
  • [Presentation] 非負値行列因子分解を用いたマルチモーダル声質変換における画像特徴量の検討2016

    • Author(s)
      羅里奈
    • Organizer
      日本音響学会2016年秋季研究発表会
    • Place of Presentation
      富山大学,富山,日本
    • Year and Date
      2016-09-14 – 2016-09-16
  • [Presentation] Dysarthric Speech Modification Using Parallel Utterance Based on Non-negative Temporal Decomposition2016

    • Author(s)
      相原龍
    • Organizer
      SLPAT 2016, 7th Workshop on Speech and Language Processing for Assistive Technologies
    • Place of Presentation
      San Francisco, USA
    • Year and Date
      2016-09-12 – 2016-09-12
    • Int'l Joint Research
  • [Presentation] Parallel Dictionary Learning for Voice Conversion Using Discriminative Graph-embedded Non-negative Matrix Factorization2016

    • Author(s)
      相原龍
    • Organizer
      INTERSPEECH2016
    • Place of Presentation
      Hyatt Regency, San Francisco, USA
    • Year and Date
      2016-09-08 – 2016-09-12
    • Int'l Joint Research
  • [Presentation] Audio-Visual Speech Recognition Using Bimodal-Trained Bottleneck Features for a Person with Severe Hearing Loss2016

    • Author(s)
      高島悠樹
    • Organizer
      INTERSPEECH2016
    • Place of Presentation
      Hyatt Regency, San Francisco, USA
    • Year and Date
      2016-09-08 – 2016-09-12
    • Int'l Joint Research
  • [Presentation] Discriminative Graph-embedded Non-negative Matrix_Factorizationを用いた声質変換のためのパラレル辞書学習2016

    • Author(s)
      相原龍
    • Organizer
      電子情報通信学会音声研究会(SP)
    • Place of Presentation
      京都大学,京都,日本
    • Year and Date
      2016-08-24 – 2016-08-25
  • [Book] Computer and Information Science2016

    • Author(s)
      Roger Lee (Editor), Ryo Aihara, Kenta Masaka, Tetsuya Takiguchi, Yasuo Ariki
    • Total Pages
      181
    • Publisher
      Springer International Publishing

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi