2016 Fiscal Year Annual Research Report
High-quality speech synthesis based on automatically-retrieved speech constraints
Project/Area Number |
16H06681
|
Research Institution | The University of Tokyo |
Principal Investigator |
高道 慎之介 東京大学, 大学院情報理工学系研究科, 特任助教 (90784330)
|
Project Period (FY) |
2016-08-26 – 2018-03-31
|
Keywords | 音声合成 / 音声処理 / 深層学習 |
Outline of Annual Research Achievements |
本年度は,①基盤アルゴリズムの構築,②発話間変動を考慮した音声合成法の検討に取り組んだ. ① 基盤アルゴリズムの構築 基本的な学習アルゴリズムを確立し,提案アルゴリズムによる品質改善効果を確認した.音声合成の学習時の目的関数は,ターゲット音声との距離とアンチ・スプーフィングの識別性能の2つから成る.まず,この目的関数の設計(モデル構造や制約重みなど)及び学習手順(学習速度や初期化)について,当該特徴量の補償度及び主観的な音質評価により評価した.当該分野は,当該分野最高峰の国際会議であるIEEE ICASSPにて,論文1編のみに与えられるStudent Grantを獲得した.また,最高峰の学術論文に1編投稿中である. ② 発話間変動を考慮した音声合成法の検討 人間の音声生成はランダム性を有するため,同一のテキスト・感情を持つよう意図して発話したとしても,同一の音声を生成することは不可能である.典型的な音声合成は,入力テキストに対して合成音声を一意に定めるため,自然音声のようなランダム性を有 さない(例えば,テキスト読み上げサービスは多々存在するが,同じテキストを入力すると完全に同一の音声を生成する.).ここでは,このランダム性を再現するように,moment-matching neural networkに基づく音声合成法を提案し,音質に関する評価を行った.その結果,従来の方法と比較して音質を劣化させるように,発話間変動を付与できるようになった.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初は,概要①のみの進捗を予定していたが,概要②の成果も報告できたため.
|
Strategy for Future Research Activity |
平成29年度は,音声波形ドメインにおける制約の設計,及び,特徴量分析区間の自動獲得を実施する.音声合成の学習には,前年度に確立したアルゴリズムを利用する.
|
Research Products
(12 results)