研究課題
本研究の目的は、従来のデファクトスタンダードであった隠れマルコフモデルに基づく音声合成と近年の深層学習に基づくEnd-to-End音声合成を融合した次世代音声合成技術の開発である。近年のEnd-to-End音声合成は、非常に高品質な合成音声を再現可能である一方で、次のような3つの問題点があった。1.従来手法に比べ学習に大量のデータが必要、2.直感的に理解しやすい音声特徴に基づいた合成音声のコントロールが困難、3.入力と出力を繋ぐ中間的な特徴表現や不完全なデータを利用する枠組みが未確立。本研究では、従来の隠れマルコフモデルに基づく音声合成における知見を積極的に利用した「統計的生成モデルに基づくニューラルネットワークの構造化」および「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」という2つのアイデアを核として、上記の問題を解決した音声合成手法の構築を目指している。令和3年度は「統計的生成モデルに基づくニューラルネットワークの構造化」として、波形生成部および音響モデル部における構造化の改良に取り組んだ。波形生成部においては、前年度に提案した音声の周期・非周期性に関する構造を組み込んだモデルに対し、より適切な構造化が行われるような周期・非周期特性に関する評価関数を導入し、合成音声の自然性が改善されることを示した。音響モデルの構造化については、前年度に提案した隠れセミマルコフモデルを組み込んだニューラルネットワークにおいて、合成音声の品質改善や計算量・メモリ削減に取り組み、有効性を示した。さらに、「音声合成のための中間的特徴を利用した半教師有り学習の枠組み」として提案した階層化生成モデルに、隠れセミマルコフモデルに基づく構造化ニューラルネットワークを組み込むことにより、変分オートエンコーダに基づく階層構造が音響モデルの性能改善に有効であることを示した。
令和3年度が最終年度であるため、記入しない。
すべて 2022 2021
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (10件) (うち国際学会 2件)
IEEE/ACM Transactions on Audio, Speech and Language Processing
巻: 29 ページ: 2803-2815
10.1109/TASLP.2021.3104165
IEEE Access
巻: 9 ページ: 137599-137612
10.1109/ACCESS.2021.3118033