2019 Fiscal Year Annual Research Report
階層化生成モデルとマルチタスク深層学習の融合に基づく次世代音声合成技術
Project/Area Number |
19H04136
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
Co-Investigator(Kenkyū-buntansha) |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声合成 / 深層学習 |
Outline of Annual Research Achievements |
本研究は、従来のデファクトスタンダードであった隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的としている。近年のEnd-to-End音声合成は、非常に高品質な合成音声を再現可能である一方で、次のような3つの問題点があった。1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立。本研究では、従来の隠れマルコフモデルに基づく音声合成における知見を積極的に利用した「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、上記の問題を解決した音声合成手法の構築を目指している。 これまで、「統計的生成モデルに基づくニューラルネットワークの構造化」に関して、波形生成部と音響モデルの構造化に取り組んだ。波形生成部においては、従来のボコーダで取り扱われていた基本周波数やスペクトル、有声無声情報などの音声特徴を考慮した構造を組み込んだ新しいニューラルネットワークを提案した。また、音響モデルの構造化として、データの時間伸縮を表現可能な隠れセミマルコフモデルの構造を組み込んだニューラルネットワークを構築し、従来よりも少ないデータ量で音声合成が可能であることを確認した。さらに、「音声合成のための中間表現を利用した半教師有り学習の枠組み」として、End-to-End音声合成にVAE(Variational Auto-Encoder)と階層型マルチタスク学習を統合した半教師有り学習を導入し、かな漢字混じり文を入力とした日本語音声合成において音声品質や読み上げ精度が大きく改善することを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
これまで、当初計画していた「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」に関する実証実験において、非常に良好な結果が得られており、特に「波形生成部の構造化」と「階層型生成モデルによる半教師有り学習」においては、結果を早々に国際会議等で発表を行うことができた。 音響モデルの構造化については、当初予想していなかった新たな課題が見つかったが、予備実験や理論的な検討を重ねることによって、課題を解決するだけでなく、さらなる性能改善の可能性を見出しつつある。 また、End-to-End音声合成における「言語解析部と音響モデルの統合」についても予定よりも早く実験を行い、かな漢字混じりの文を入力とする日本語End-to-End音声合成において有効性を示すことができた。 以上のことから、本研究課題は当初の計画以上に進展していると判断する。
|
Strategy for Future Research Activity |
本研究課題は当初の予定よりも進展しており、引き続き計画を前倒ししながら研究を進めていく。 ニューラルネットワークの構造化については、これまで波形生成部および音響モデル部の2つのモジュールにおける構造化について取り組んできたが、さらなる性能改善を行うとともに、合成音の品質、学習データ量による影響、およびコントローラビリティに関する詳細な評価を行う。また、得られた構造化ニューラルネットワークを階層化生成モデルへ組み込むための理論的な整備および実証実験を行っていく。 半教師有り学習の枠組みについても、すでに良好な結果が得られているが、実験結果の詳細の分析を行うとともに、さらなる性能改善を目指した理論整備および実証実験を行っていく。 また、End-to-End原理を最大限に生かすためのモジュール統合として、今後、音響モデルと波形生成部の統合、さらには言語解析部・音響モデル・波形生成部を統合した完全なEnd-to-End音声合成を実装し、評価実験と理論的な検討を繰り返していくことにより、さらなる性能改善を目指す。 上記の検討で得られた成果は速やかに取りまとめ、国内・国際学会において発表する予定である。
|
Research Products
(11 results)