本年度は,①基盤アルゴリズムの構築,②発話間変動を考慮した音声合成法の検討に取り組んだ. ① 基盤アルゴリズムの構築 基本的な学習アルゴリズムを確立し,提案アルゴリズムによる品質改善効果を確認した.音声合成の学習時の目的関数は,ターゲット音声との距離とアンチ・スプーフィングの識別性能の2つから成る.まず,この目的関数の設計(モデル構造や制約重みなど)及び学習手順(学習速度や初期化)について,当該特徴量の補償度及び主観的な音質評価により評価した.当該分野は,当該分野最高峰の国際会議であるIEEE ICASSPにて,論文1編のみに与えられるStudent Grantを獲得した.また,最高峰の学術論文に1編投稿中である. ② 発話間変動を考慮した音声合成法の検討 人間の音声生成はランダム性を有するため,同一のテキスト・感情を持つよう意図して発話したとしても,同一の音声を生成することは不可能である.典型的な音声合成は,入力テキストに対して合成音声を一意に定めるため,自然音声のようなランダム性を有 さない(例えば,テキスト読み上げサービスは多々存在するが,同じテキストを入力すると完全に同一の音声を生成する.).ここでは,このランダム性を再現するように,moment-matching neural networkに基づく音声合成法を提案し,音質に関する評価を行った.その結果,従来の方法と比較して音質を劣化させるように,発話間変動を付与できるようになった.
|