2020 Fiscal Year Annual Research Report
階層化生成モデルとマルチタスク深層学習の融合に基づく次世代音声合成技術
Project/Area Number |
19H04136
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
Co-Investigator(Kenkyū-buntansha) |
橋本 佳 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (10635907)
大浦 圭一郎 名古屋工業大学, 工学(系)研究科(研究院), 研究員 (20588579)
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声合成 / 深層学習 |
Outline of Annual Research Achievements |
本研究は、従来のデファクトスタンダードであった隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発を目的としている。近年のEnd-to-End音声合成は、非常に高品質な合成音声を再現可能である一方で、次のような3つの問題点があった。1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立。本研究では、従来の隠れマルコフモデルに基づく音声合成における知見を積極的に利用した「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、上記の問題を解決した音声合成手法の構築を目指している。 昨年度はニューラルネットワークの構造化について、波形生成部および音響モデル部の2つのモジュールにおける構造化について取り組んだ。波形生成部においては、従来型ボコーダで用いられる音声の周期・非周期性に関する構造を組み込んだモデルを提案し、高い自然性と基本周波数のコントローラビリティが両立可能であることを示した。また、音響モデルの構造化については、音声のモデル化に適した構造として隠れセミマルコフモデルを組み込んだニューラルネットワークを構築し、学習データが少量の場合において音質改善が可能であることを示した。さらに,構造化したニューラルネットワークを半教師有り学習の枠組みに適用するために、VAE(Variational Auto Encoder)に基づくSequence-to-Sequenceニューラルネットワークを提案し,音響モデルとしての有効性を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまで、当初計画していた「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」に関する実証実験において、非常に良好な結果が得られており、特に「波形生成部の構造化」と「階層型生成モデルによる半教師有り学習」においては、結果を早々に国際会議等で発表を行うことができた。音響モデルの構造化については、隠れセミマルコフモデルを組み込んだニューラルネットワークにおいて、当初予想していなかった新たな課題が見つかったが、予備実験や理論的な検討を重ねることによって、課題を解決するだけでなく、さらなる性能改善に関する知見が得られている。また、End-to-End音声合成における「言語解析部と音響モデルの統合」についても予定よりも早く実験を行い、かな漢字混じりの文を入力とする日本語End-to-End音声合成において有効性を示すことができた。波形生成部における構造化については,明確な構造化の形態が明らかになっておらず、引き続き、理論的および実験的な検討を行っていく必要があるが、プロジェクト全体としては計画通り順調に進展していると言える。
|
Strategy for Future Research Activity |
本研究課題は当初の予定通り進展しており、引き続き計画に沿って研究を進めていく。「統計的生成モデルに基づくニューラルネットワークの構造化」については、これまで波形生成部および音響モデル部の2つのモジュールにおける構造化について取り組んできたが、さらなる性能改善および詳細な評価を行う。特に波形生成部については適切な構造化が未だ明確になっていないため、理論的および実験的な検討を行っていく。「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」については、End-to-End原理を最大限に生かすためのモジュール統合として、これまでに「言語解析部と音響モデルの統合」を実装し、有効性を示した。今後、「音響モデルと波形生成部の統合」に取り組みつつ、完全なEnd-to-End音声合成である「言語解析部・音響モデル・波形生成部の統合」の形態について探求していく。また、次年度は「統計的生成モデルに基づくニューラルネットワークの構造化」と「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」を組み合わせた枠組みの構築を目指す。具体的には、隠れセミマルコフモデルに基づいて構造化された音響モデルを用いて、音響モデルと言語解析部の統合を行う。また、波形生成部においても統計モデルとしての構造を整備した上で、音響モデルとの統合を検討していく。これらの構造化およびモジュール統合によって、ニューラルネットワークの構造化に基づく効率的な学習や音声特徴のコントローラビリティ、および深層生成モデルに基づく全体最適化や半教師あり学習に基づく学習データの有効利用などが期待できるため、そのような観点からの評価実験を行う。上記の検討で得られた成果は速やかに取りまとめ、国内・国際学会において発表する予定である。
|
Research Products
(12 results)