Project/Area Number |
14J10354
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Intelligent informatics
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
高道 慎之介 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2014-04-25 – 2016-03-31
|
Project Status |
Completed (Fiscal Year 2015)
|
Budget Amount *help |
¥1,600,000 (Direct Cost: ¥1,600,000)
Fiscal Year 2015: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2014: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 音声合成 / 同時通訳 / HMM音声合成 / GMM声質変換 / 統計的パラメトリック音声合成 |
Outline of Annual Research Achievements |
本年度は,① 高速かつ高音質な音声合成・声質変換の実現,及び,②元話者の声質をできる限り反映する英語音声合成に着手した. ①は,同時通訳の実現に必要不可欠な技術である.現在の主流である統計的音声合成は,少ない計算時間で音声を合成する利点を持つが,著しく音質の低い音声を生成する.この音質劣化問題に対して,我々は昨年度までに,変調スペクトルに基づくフィルタ法と音声パラメータ生成法を提案し,有効性を確認した.しかしながら,これらの手法により生成時間の増加は免れない.そこで,本年度は,変調スペクトル制約の下で音声合成器を学習する手法を提案した.実験的評価により,従来の計算時間を保持しながら,変調スペクトルの考慮による音質改善効果を得られることを確認した.また,変調スペクトルの効果を多言語音声合成において確認するため,インド言語の音声を合成する国際コンペティションに参加した.その結果,いくつかの言語において,変調スペクトルに基づく手法が世界最高品質だと評価された. ②は,同時通訳で生成される合成音声に,元話者(例えば,講演者)の声質を反映する技術である.ある言語の話者の声質を別言語(ターゲット言語)の音声に反映するクロスリンガル音声合成が従来存在するが,合成音声の声質は,元話者の声質と大きく異なる.そこで我々は,声質をできるだけ反映する方法として,元話者の発話した非流暢なターゲット言語音声を用いて,ターゲット言語の合成音声を生成する方法を提案した.本年度は,元話者を日本語話者,ターゲット言語を英語に絞り研究を実施した.実験的評価の結果,非流暢な英語音声の音韻・韻律的特徴を補正することで,声質を保存したまま,自然な英語音声を合成できることを確認した.
|
Research Progress Status |
27年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
27年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(26 results)