2016 Fiscal Year Annual Research Report
Project/Area Number |
15H02724
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 隆夫 東京工業大学, 工学院, 教授 (70153616)
|
Co-Investigator(Kenkyū-buntansha) |
郡山 知樹 東京工業大学, 工学院, 助教 (50749124)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 音声情報処理 / テキスト音声合成 / 韻律生成 / GPR音声合成 |
Outline of Annual Research Achievements |
テキスト音声合成の新たな枠組みであるガウス過程回帰(GPR)に基づく手法において,研究第二年度となる本年度は多様な音声合成への応用に重点をおいて研究を進め,以下の成果が得られた。 まずGPR音声合成手法に関して,学習用音声データに自動的に韻律情報を付加する手法を提案し,これに基づいてラベリングした音声データを用いてモデル学習を行い,GPR音声合成の品質評価を行った結果,同じ学習データを用いた従来の合成手法に比べて品質の高い合成音声が得られることを示した。 次に,GPR音声合成に基づいた多様な話者性による音声合成に関しては,複数話者の音声データと特徴量空間における線形変換に基づいた話者適応を利用する提案手法において,複数の線形変換を組み合わせることにより合成音声の品質が向上することを示した。 さらに,多様な話者性に加えてGPR音声合成に基づいた多様な発話様式や感情表現を持つ音声の生成に関して,特徴量変換を利用するスタイル適応手法を検討し,少量のスタイル学習用音声からでも所望のスタイルを持った音声を合成可能なことを示した。また,学習用音声として多様なスタイル音声が含まれるオーディオブック音声を用いたGPR音声合成の検討を行い,従来法に比べ品質が向上することを示した。 ユニバーサルコミュニケーションに向けた音声合成として日本語音声合成の他に、韻律生成が難しい声調言語の一つであるタイ語について,音韻継続長に関する新たなGPR音声合成用モデル化手法を提案し,その有効性を示した。また,英語音声合成についてもGPR音声合成システムを構築した。 この他にも,音声インタフェースの発展に資する基盤技術として,パラレルデータを用いない声質変換手法の検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は,より自然で多様な音声の合成を可能とするために,新たな音声合成の枠組みであるガウス過程回帰に基づく音声合成(GPR音声合成)手法を提案し,その基盤技術を確立することにあり,研究第二年度では初年度に構築したGPR音声合成システムの多様な音声合成への応用に重点をおいて研究を進めた。 この観点からすると,多様な話者性によるGPR音声合成,多様なスタイルによるGPR音声合成,ユニバーサルコミュニケーションに向けたタイ語や英語のGPR音声合成手法を提案し,その客観・主観評価結果から,従来のHMM音声合成システムの性能を有意に上回ることを示したことから,第二年度の目標は十分に達成できたことから,概ね順調に進んでいると判断した。
|
Strategy for Future Research Activity |
研究第二年度の研究は計画通り進んでおり,ユニバーサルコミュニケーションに向けた他言語の音声合成としてインドネシア語から英語に変更したことを除いて,計画の大きな変更は不要なことから,概ね当初の計画に沿ってこのまま研究を進めていく。
|
Research Products
(17 results)