2014 Fiscal Year Annual Research Report
Project/Area Number |
14J10354
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
高道 慎之介 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2014-04-25 – 2016-03-31
|
Keywords | HMM音声合成 / GMM声質変換 / 統計的パラメトリック音声合成 |
Outline of Annual Research Achievements |
入力情報から音声を生成する音声合成技術は,我々のコミュニケーション能力や身体機能を拡張する可能性を秘めている.一方で,統計的パラメトリック音声合成方式における合成音声の音質は,自然音声と比較して著しく劣化する傾向にある.その要因は,分析部・学習部・生成部の各々に存在するが,特に生成部では,統計処理による音声パラメータ系列の過剰な平滑化が大きな要因である.パラメータ系列の系列内変動(GV: Global Variance)は,過剰な平滑化を定量的に説明する特徴量として広く知られている.特徴量自体は,パラメータ系列の2次モーメントというシンプルな形式で表現されるものの,GVを考慮したパラメータ生成法は,平滑化の影響を比較的抑えたパラメータ系列を生成可能であり,現在も広く応用されている.しかしながら,その合成音声の音質は,自然音声の音質と比較すると未だに大きく劣化する. パラメータの系列内変動(Global Variance: GV)は,過剰な平滑化を定量的に説明する特徴量として広く知られている.近年,我々は,GVの拡張形である変調スペクトル(MS: Modulation Spectrum)が,過剰な平滑化の定量化に一層効果的であることを明らかにしている.MSは,パラメータ系列のパワースペクトルとして定義され,音声知覚に関するスペクトルキューや音声認識におけるスペクトルパラメータとして使用される特徴量である.HMM音声合成において生成されるパラメータ系列のMSは,GVを考慮した場合においても,自然音声のMSと比較して大きく減衰する傾向にある. 本研究では,HMM音声合成とGMM声質変換において,MSに基づく3つの音質改善法)を提案する.本研究では、それぞれの提案法を用いた実験的評価により,提案法の音質改善効果を示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、(1) 基盤技術である音声合成の高音質化及び (2) 高い声質再現性を持つ英語音声合成技術について検討した。(1) については、統計的音声合成法における音質劣化を定量化する新たな特徴量として、変調スペクトルを発見した。また、(2) については、日本人英語を利用した合成法により、日本語母語話者の声質を反映する英語音声合成法を検討した。本研究では、英語母語話者の韻律・音韻情報の部分的な使用により、声質を高精度に保ちつつ、自然な音声を合成することが可能になった。 本研究テーマの基盤技術を十分に整備できたといえる。
|
Strategy for Future Research Activity |
今後は、高い声質再現性を持つ英語音声合成技術について、音質劣化にアプローチする。また、今年度に研究した音質改善法との掛け合わせも検討する。
|
Research Products
(16 results)