• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Research-status Report

Articulatory text-to-speech synthesis based on digital waveguide mesh driven by deep neural network

Research Project

Project/Area Number 17K20004
Research InstitutionNagoya Institute of Technology

Principal Investigator

徳田 恵一  名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

Co-Investigator(Kenkyū-buntansha) 南角 吉彦  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
Project Period (FY) 2017-06-30 – 2020-03-31
Keywords音声合成 / 音声情報処理
Outline of Annual Research Achievements

本研究の目的は、あらゆる声質を柔軟に表現可能な音声合成システムを構築するため、実際の人間の発声機構に則した調音モデルをテキスト音声合成システムに組み込み、その有用性を検証することにある。当該年度では、ディープニューラルネットワークの枠組みの中で2次元ディジタル・ウェーブガイド・メッシュ調音モデルを定式化し、調音モデルをテキスト音声合成システムに組み込むアイディアを数式として表現した。このような研究は他に例がなく、音声合成の研究を次の段階に推し進めるための1つの試みであると言える。さらに、申請者らは、導出した数式をもとに調音モデルを組み込んだテキスト音声合成システムを構築することに成功した。生成された音声のフォルマント周波数やスペクトルの大域的な構造は人間の発声のものと類似しており、明瞭な音声が合成できることを確認した。また、実際に獲得された調音モデルの形状や時間的な変化を観測することにより、今後の研究を進めていく上で重要な知見を獲得することができた。観測された音声波形から直接調音モデルを推定することは、不良設定問題である。しかし、本研究ではニューラルネットワークを不良設定問題の正則化として利用することによって、これまで解くことが困難であった調音モデルの逆推定の問題を解決できる可能性を示した。これまでに得られた成果は、論文にまとめて、音声関連の最重要国際会議の1つであるInterspeechに投稿した。現地で発表を行い、音声関連の多くの研究者と意見交換を行った。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

本研究では3年間の研究機関を想定している。平成29年度の課題としては、音声波形から調音モデルを逆推定することの実現可能性の検証を挙げていた。申請者らは、調音モデルを組み込んだテキスト音声合成システムを実際に構築することで、調音モデルの逆推定の実現可能性を示した。これは、平成30年度の課題として設定していた「調音モデルの学習方法の確立」の一部を含んでおり、進捗状況としては、当初の計画以上に進展しているものと言える。

Strategy for Future Research Activity

当該年度では、当初の計画以上に研究を進展させることができた。しかし、音声波形から調音モデルを逆推定するための実現可能性の検証を重視していたため、これまでシンプルなモデル構造を仮定していた。このため、調音モデルを組み込んだテキスト音声合成システムから生成される音声の品質には改善の余地があった。そこで、今後は研究をさらに発展させて合成音声の品質の向上を目指す。具体的には、WaveNetを始めとする最新の音声波形生成手法との融合を検討する。最新の音声波形生成手法では、音声波形の長期に渡る依存関係を捉えられるような特殊な構造を持ったモデルを採用している。そのようなモデル構造を本研究で提案するモデルに導入することで、より自然な音声を生成できると考えられる。また、従来のテキスト音声合成システムにおいて広く利用されている動的特徴の導入も検討する。動的特徴を考慮することで、時間方向になめらかなパラメータ系列を生成できることが、これまでの実験から分かっている。調音モデルにおいても、動的特徴によって声道形状の時間的な連続性を捉えることができれば、より実際の人間の声道形状に則した調音モデルを推定できることが期待される。
更に、合成音声の声質や感情の制御の検討を行う。これまで申請者らは、音声合成のワークショップであるBlizzard Challengeに参加することで、オーディオブックを用いて表現豊かな音声を合成可能なテキスト音声合成システムを構築するための枠組みを確立してきた。オーディオブックは絵本などを朗読した音声コンテンツであり、様々な登場人物が感情豊かに話す音声が含まれていることが特徴である。申請者らがこれまで獲得された知見を利用することで、声質や感情を制御可能な調音モデルに基づくテキスト音声合成システムの構築を目指す。

Causes of Carryover

物品の購入を予定していたが、既存のものを有効活用することで今年度購入する必要がなくなったため、次年度使用額が生じた。次年度予算と合わせてモデル学習用GPU計算機の購入に使用する。

  • Research Products

    (13 results)

All 2018 2017 Other

All Int'l Joint Research (1 results) Presentation (12 results) (of which Int'l Joint Research: 3 results)

  • [Int'l Joint Research] University of York(英国)

    • Country Name
      UNITED KINGDOM
    • Counterpart Institution
      University of York
  • [Presentation] DNN音声合成のためのパワーを考慮したトラジェクトリ学習2018

    • Author(s)
      船戸涼平, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      音声研究会
  • [Presentation] メルケプストラムに基づくノイズシェーピング量子化法のWaveNet音声合成への適用2018

    • Author(s)
      吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      音声研究会
  • [Presentation] WaveNetに基づく声質変換の検討2018

    • Author(s)
      丹羽純平, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      音声研究会
  • [Presentation] Blizzard Machine Learning Challenge 2017の概要2018

    • Author(s)
      沢田慶, 徳田恵一, Simon King, Alan W Black
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] 隠れセミマルコフモデルの構造を利用したニューラルネットワークに基づく歌声合成2018

    • Author(s)
      法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] DNNに基づく発声タイミングモデルを利用した歌声合成2018

    • Author(s)
      村田舜馬, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2018年春季研究発表会
  • [Presentation] WaveNetにおけるメルケプストラムに基づくノイズシェーピング量子化法の適用2017

    • Author(s)
      吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2017年秋季研究発表会
  • [Presentation] WaveNet-based voice conversion2017

    • Author(s)
      丹羽純平, 吉村建慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2017年秋季研究発表会
  • [Presentation] Blizzard Challenge 2017のためのNITechテキスト音声合成システム2017

    • Author(s)
      沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会2017年秋季研究発表会
  • [Presentation] Articulatory text-to-speech synthesis using the digital waveguide mesh driven by a deep neural network2017

    • Author(s)
      Amelia J. Gully, Takenori Yoshimura, Damian T. Murphy, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • Organizer
      INTERSPEECH 2017
    • Int'l Joint Research
  • [Presentation] The NITech text-to-speech system for the Blizzard Challenge 20172017

    • Author(s)
      Kei Sawada, Kei Hashimoto, Keiichiro Oura, and Keiichi Tokuda
    • Organizer
      Blizzard Challenge 2017 Workshop
    • Int'l Joint Research
  • [Presentation] The Blizzard Machine Learning Challenge 20172017

    • Author(s)
      Kei Sawada, Keiichi Tokuda, Simon King, and Alan W Black
    • Organizer
      2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)
    • Int'l Joint Research

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi