研究課題
本研究の目的は、あらゆる声質を柔軟に表現可能な音声合成システムを構築するため、実際の人間の発声機構に則した調音モデルをテキスト音声合成システムに組み込み、その有用性を検証することにある。まず始めに、ディープニューラルネットワークの枠組みの中で2次元ディジタル・ウェーブガイド・メッシュ調音モデルを定式化し、調音モデルをテキスト音声合成システムに組み込むアイディアを数式として表現した。さらに、導出した数式をもとに調音モデルを組み込んだテキスト音声合成システムを構築することに成功した。但し、音声波形から調音モデルを逆推定するための実現可能性の検証を重視していたため、比較的単純なモデル構造を仮定していた。このため調音モデルを組み込んだテキスト音声合成システムから生成される音声の品質には一定の限界があることがわかった。そこで、WaveNetを始めとする最新の音声波形生成手法との融合を目指し、より自然な音声の生成に取り組んだ。これらの音声波形生成手法において、音声波形モデルは調音モデルの構造を部分的に含んでいると考えられる。このような観点から、調音モデルと音声波形モデルの関係性の調査と調音モデルと音声波形モデルの融合を目指し、合成音声の声質や感情の制御の検討を行った。ディープニューラルネットワークに基づく音響モデルの入力に話者コードやフレーズコードなどを加えることで、声質や感情を制御可能な音声合成システムを実現することができた。さらに敵対的学習などの学習手法を適用することで、より高品質な合成音声を生成可能とした。また、発話スタイル等を表す潜在変数の階層化などにより、モデル化精度の向上を図った。
すべて 2020 2019
すべて 雑誌論文 (2件) (うち国際共著 1件、 査読あり 2件) 学会発表 (11件) (うち国際学会 5件、 招待講演 2件)
IEEE/ACM Transactions on Audio, Speech and Language Processing
巻: 28 ページ: 157-170
10.1109/TASLP.2019.2950099
巻: 28 ページ: 402-415
10.1109/TASLP.2019.2956145