研究課題
本年度は,① 高速かつ高音質な音声合成・声質変換の実現,及び,②元話者の声質をできる限り反映する英語音声合成に着手した.①は,同時通訳の実現に必要不可欠な技術である.現在の主流である統計的音声合成は,少ない計算時間で音声を合成する利点を持つが,著しく音質の低い音声を生成する.この音質劣化問題に対して,我々は昨年度までに,変調スペクトルに基づくフィルタ法と音声パラメータ生成法を提案し,有効性を確認した.しかしながら,これらの手法により生成時間の増加は免れない.そこで,本年度は,変調スペクトル制約の下で音声合成器を学習する手法を提案した.実験的評価により,従来の計算時間を保持しながら,変調スペクトルの考慮による音質改善効果を得られることを確認した.また,変調スペクトルの効果を多言語音声合成において確認するため,インド言語の音声を合成する国際コンペティションに参加した.その結果,いくつかの言語において,変調スペクトルに基づく手法が世界最高品質だと評価された.②は,同時通訳で生成される合成音声に,元話者(例えば,講演者)の声質を反映する技術である.ある言語の話者の声質を別言語(ターゲット言語)の音声に反映するクロスリンガル音声合成が従来存在するが,合成音声の声質は,元話者の声質と大きく異なる.そこで我々は,声質をできるだけ反映する方法として,元話者の発話した非流暢なターゲット言語音声を用いて,ターゲット言語の合成音声を生成する方法を提案した.本年度は,元話者を日本語話者,ターゲット言語を英語に絞り研究を実施した.実験的評価の結果,非流暢な英語音声の音韻・韻律的特徴を補正することで,声質を保存したまま,自然な英語音声を合成できることを確認した.
27年度が最終年度であるため、記入しない。
すべて 2016 2015 その他
すべて 国際共同研究 (1件) 雑誌論文 (2件) (うち国際共著 2件、 査読あり 2件、 謝辞記載あり 2件、 オープンアクセス 1件) 学会発表 (6件) (うち国際学会 5件) 備考 (2件)
IEEE Transactions on Audio, Speech, and Language Processing
巻: 24 ページ: 755-767
10.1109/TASLP.2016.2522655
APSIPA newsletter
巻: 9 ページ: 14-16
https://sites.google.com/site/shinnosuketakamichi/research-topics/erj-tts
https://sites.google.com/site/shinnosuketakamichi/research-topics/blizzard-challenge-2015