研究課題/領域番号 |
17K20004
|
研究機関 | 名古屋工業大学 |
研究代表者 |
徳田 恵一 名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)
|
研究分担者 |
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
研究期間 (年度) |
2017-06-30 – 2020-03-31
|
キーワード | 音声合成 / 音声情報処理 |
研究実績の概要 |
本研究の目的は、あらゆる声質を柔軟に表現可能な音声合成システムを構築するため、実際の人間の発声機構に則した調音モデルをテキスト音声合成システムに組み込み、その有用性を検証することにある。当該年度では、ディープニューラルネットワークの枠組みの中で2次元ディジタル・ウェーブガイド・メッシュ調音モデルを定式化し、調音モデルをテキスト音声合成システムに組み込むアイディアを数式として表現した。このような研究は他に例がなく、音声合成の研究を次の段階に推し進めるための1つの試みであると言える。さらに、申請者らは、導出した数式をもとに調音モデルを組み込んだテキスト音声合成システムを構築することに成功した。生成された音声のフォルマント周波数やスペクトルの大域的な構造は人間の発声のものと類似しており、明瞭な音声が合成できることを確認した。また、実際に獲得された調音モデルの形状や時間的な変化を観測することにより、今後の研究を進めていく上で重要な知見を獲得することができた。観測された音声波形から直接調音モデルを推定することは、不良設定問題である。しかし、本研究ではニューラルネットワークを不良設定問題の正則化として利用することによって、これまで解くことが困難であった調音モデルの逆推定の問題を解決できる可能性を示した。これまでに得られた成果は、論文にまとめて、音声関連の最重要国際会議の1つであるInterspeechに投稿した。現地で発表を行い、音声関連の多くの研究者と意見交換を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究では3年間の研究機関を想定している。平成29年度の課題としては、音声波形から調音モデルを逆推定することの実現可能性の検証を挙げていた。申請者らは、調音モデルを組み込んだテキスト音声合成システムを実際に構築することで、調音モデルの逆推定の実現可能性を示した。これは、平成30年度の課題として設定していた「調音モデルの学習方法の確立」の一部を含んでおり、進捗状況としては、当初の計画以上に進展しているものと言える。
|
今後の研究の推進方策 |
当該年度では、当初の計画以上に研究を進展させることができた。しかし、音声波形から調音モデルを逆推定するための実現可能性の検証を重視していたため、これまでシンプルなモデル構造を仮定していた。このため、調音モデルを組み込んだテキスト音声合成システムから生成される音声の品質には改善の余地があった。そこで、今後は研究をさらに発展させて合成音声の品質の向上を目指す。具体的には、WaveNetを始めとする最新の音声波形生成手法との融合を検討する。最新の音声波形生成手法では、音声波形の長期に渡る依存関係を捉えられるような特殊な構造を持ったモデルを採用している。そのようなモデル構造を本研究で提案するモデルに導入することで、より自然な音声を生成できると考えられる。また、従来のテキスト音声合成システムにおいて広く利用されている動的特徴の導入も検討する。動的特徴を考慮することで、時間方向になめらかなパラメータ系列を生成できることが、これまでの実験から分かっている。調音モデルにおいても、動的特徴によって声道形状の時間的な連続性を捉えることができれば、より実際の人間の声道形状に則した調音モデルを推定できることが期待される。 更に、合成音声の声質や感情の制御の検討を行う。これまで申請者らは、音声合成のワークショップであるBlizzard Challengeに参加することで、オーディオブックを用いて表現豊かな音声を合成可能なテキスト音声合成システムを構築するための枠組みを確立してきた。オーディオブックは絵本などを朗読した音声コンテンツであり、様々な登場人物が感情豊かに話す音声が含まれていることが特徴である。申請者らがこれまで獲得された知見を利用することで、声質や感情を制御可能な調音モデルに基づくテキスト音声合成システムの構築を目指す。
|
次年度使用額が生じた理由 |
物品の購入を予定していたが、既存のものを有効活用することで今年度購入する必要がなくなったため、次年度使用額が生じた。次年度予算と合わせてモデル学習用GPU計算機の購入に使用する。
|