2019 Fiscal Year Annual Research Report

階層化生成モデルとマルチタスク深層学習の融合に基づく次世代音声合成技術

Research Project

Project/Area Number	19H04136
Research Institution	Nagoya Institute of Technology
Principal Investigator	南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
Co-Investigator(Kenkyū-buntansha)	橋本佳名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907) 大浦圭一郎名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579) 徳田恵一名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	音声合成 / 深層学習
Outline of Annual Research Achievements	本研究は、従来のデファクトスタンダードであった隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的としている。近年のEnd-to-End音声合成は、非常に高品質な合成音声を再現可能である一方で、次のような3つの問題点があった。1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立。本研究では、従来の隠れマルコフモデルに基づく音声合成における知見を積極的に利用した「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、上記の問題を解決した音声合成手法の構築を目指している。これまで、「統計的生成モデルに基づくニューラルネットワークの構造化」に関して、波形生成部と音響モデルの構造化に取り組んだ。波形生成部においては、従来のボコーダで取り扱われていた基本周波数やスペクトル、有声無声情報などの音声特徴を考慮した構造を組み込んだ新しいニューラルネットワークを提案した。また、音響モデルの構造化として、データの時間伸縮を表現可能な隠れセミマルコフモデルの構造を組み込んだニューラルネットワークを構築し、従来よりも少ないデータ量で音声合成が可能であることを確認した。さらに、「音声合成のための中間表現を利用した半教師有り学習の枠組み」として、End-to-End音声合成にVAE（Variational Auto-Encoder）と階層型マルチタスク学習を統合した半教師有り学習を導入し、かな漢字混じり文を入力とした日本語音声合成において音声品質や読み上げ精度が大きく改善することを示した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason これまで、当初計画していた「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」に関する実証実験において、非常に良好な結果が得られており、特に「波形生成部の構造化」と「階層型生成モデルによる半教師有り学習」においては、結果を早々に国際会議等で発表を行うことができた。音響モデルの構造化については、当初予想していなかった新たな課題が見つかったが、予備実験や理論的な検討を重ねることによって、課題を解決するだけでなく、さらなる性能改善の可能性を見出しつつある。また、End-to-End音声合成における「言語解析部と音響モデルの統合」についても予定よりも早く実験を行い、かな漢字混じりの文を入力とする日本語End-to-End音声合成において有効性を示すことができた。以上のことから、本研究課題は当初の計画以上に進展していると判断する。
Strategy for Future Research Activity	本研究課題は当初の予定よりも進展しており、引き続き計画を前倒ししながら研究を進めていく。ニューラルネットワークの構造化については、これまで波形生成部および音響モデル部の2つのモジュールにおける構造化について取り組んできたが、さらなる性能改善を行うとともに、合成音の品質、学習データ量による影響、およびコントローラビリティに関する詳細な評価を行う。また、得られた構造化ニューラルネットワークを階層化生成モデルへ組み込むための理論的な整備および実証実験を行っていく。半教師有り学習の枠組みについても、すでに良好な結果が得られているが、実験結果の詳細の分析を行うとともに、さらなる性能改善を目指した理論整備および実証実験を行っていく。また、End-to-End原理を最大限に生かすためのモジュール統合として、今後、音響モデルと波形生成部の統合、さらには言語解析部・音響モデル・波形生成部を統合した完全なEnd-to-End音声合成を実装し、評価実験と理論的な検討を繰り返していくことにより、さらなる性能改善を目指す。上記の検討で得られた成果は速やかに取りまとめ、国内・国際学会において発表する予定である。

Research Products
(11 results)

All 2020 2019

All Presentation (11 results) (of which Int'l Joint Research: 5 results, Invited: 2 results)

[Presentation] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2020
- Author(s)
  藤本崇人, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2020年春季研究発表会
[Presentation] Semi-Supervised Learning Based on Hierarchical Generative Models for End-to-End Speech Synthesis2020
- Author(s)
  Takato Fujimoto, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
- Organizer
  2020 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Int'l Joint Research
[Presentation] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019
- Author(s)
  村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2019年秋季研究発表会
[Presentation] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019
- Author(s)
  大浦圭一郎, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  情報処理学会研究報告
[Presentation] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019
- Author(s)
  大浦圭一郎, 高木信二, 中村和寛, 橋本佳, 南角吉彦, 徳田恵一
- Organizer
  日本音響学会2019年秋季研究発表会
[Presentation] Statistical approach to speech synthesis: past, present and future2019
- Author(s)
  Keiichi Tokuda
- Organizer
  Interspeech 2019
- Int'l Joint Research / Invited
[Presentation] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019
- Author(s)
  Keiichiro Oura, Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  10th ISCA Speech Synthesis Workshop (SSW10)
- Int'l Joint Research
[Presentation] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019
- Author(s)
  Takato Fujimoto, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  10th ISCA Speech Synthesis Workshop (SSW10)
- Int'l Joint Research
[Presentation] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019
- Author(s)
  Motoki Shimada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
- Organizer
  10th ISCA Speech Synthesis Workshop (SSW10)
- Int'l Joint Research
[Presentation] 統計的音声合成の進展と展望2019
- Author(s)
  徳田恵一
- Organizer
  音声研究会
- Invited
[Presentation] 歌声合成におけるニューラルボコーダの比較検討2019
- Author(s)
  和田蒼汰, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
- Organizer
  音声研究会

2019 Fiscal Year Annual Research Report

階層化生成モデルとマルチタスク深層学習の融合に基づく次世代音声合成技術

Principal Investigator

南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)

Current Status of Research Progress

Reason

Research Products

[Presentation] End-to-End音声合成のための階層化生成モデルに基づく半教師あり学習2020

Author(s)

Organizer

[Presentation] Semi-Supervised Learning Based on Hierarchical Generative Models for End-to-End Speech Synthesis2020

Author(s)

Organizer

[Presentation] 楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討2019

Author(s)

Organizer

[Presentation] 周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ2019

Author(s)

Organizer

[Presentation] 周期・非周期信号を用いた敵対的生成ネットワークに基づくリアルタイム音声ボコーダ2019

Author(s)

Organizer

[Presentation] Statistical approach to speech synthesis: past, present and future2019

Author(s)

Organizer

[Presentation] Deep neural network based real-time speech vocoder with periodic and aperiodic inputs2019

Author(s)

Organizer

[Presentation] Impacts of input linguistic feature representation on Japanese end-to-end speech synthesis2019

Author(s)

Organizer

[Presentation] Low computational cost speech synthesis based on deep neural networks using hidden semi-Markov model structures2019

Author(s)

Organizer

[Presentation] 統計的音声合成の進展と展望2019

Author(s)

Organizer

[Presentation] 歌声合成におけるニューラルボコーダの比較検討2019

Author(s)

Organizer

南角吉彦名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)