2013 Fiscal Year Research-status Report
ガウス過程回帰モデルに基づくノンパラメトリック音声合成の研究
Project/Area Number |
25540065
|
Research Category |
Grant-in-Aid for Challenging Exploratory Research
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 隆夫 東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)
|
Co-Investigator(Kenkyū-buntansha) |
能勢 隆 東北大学, 工学(系)研究科(研究院), 講師 (90550591)
|
Project Period (FY) |
2013-04-01 – 2015-03-31
|
Keywords | テキスト音声合成 / 統計的音声合成 / ガウス過程回帰 / フレームコンテキスト / カーネル関数 / HMM音声合成 |
Research Abstract |
ガウス過程回帰を用いたノンパラメトリックモデル化に基づくテキスト音声合成手法の開拓・確立をめざして、研究初年度は、ガウス過程回帰モデルに基づく統計的音声合成の基礎的な検討に重点をおいて研究を実施した。具体的には、ガウス過程回帰モデルに必要なフレームコンテキストのカーネル関数について段階的に2項目の検討を行い、以下の成果が得られた。 まず、単純なフレームコンテキストカーネルによる基礎的検討を行い、従来の隠れマルコフモデルに基づく音声合成の研究により得られた知見を基に音素などの音韻情報を時刻情報とともにフレームコンテキストとして用い、そのフレームコンテキストの類似度をカーネルとして利用した。先行・後続の音韻情報と時刻情報のみを用いて日本語5母音と5子音を対象とする音素単位のモデル化と音声合成を行った結果、従来の隠れマルコフモデルに基づく手法に比べて提案法は合成音声のスペクトル歪が減少することを示した。 次に、音素単位での提案法の有効性が確認されたことから、フレームコンテキストの拡張と連続音声データへの適用の検討を行った。文章単位の音声合成に用いるコンテキストとして、先行・後続の音素のみでは不十分であると考えられることから、音素境界を考慮したフレームコンテキストの拡張を行った。また、そのままでは膨大な計算量が必要となるため、スパースカーネルなどによる近似より計算量の削減を行った。文章単位の音声合成実験を行い、スペクトル歪による客観評価と聴取試験による主観評価共に従来の従来の隠れマルコフモデルに基づく手法を上回る結果が得られることを示した。この他にも、モデルのハイパーパラメータの選択に関しても基本的な検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は、ノンパラメトリック回帰の一つであるガウス過程回帰をテキスト音声合成に応用し、現在の統計的音声合成手法の主流である隠れマルコフモデルに基づく音声合成の限界を超える新たな音声合成手法を開拓することにあった。 この観点から初年度は2項目により段階的に検討する計画を立て研究を行ったところ、当初の予定通り研究が進み、さらに従来手法の性能を上回る結果を示せたことから、概ね順調に進んでいると判断した。
|
Strategy for Future Research Activity |
初年度の研究が概ね計画通り進んだことから、計画の特段の変更は不要であり、当初の計画に沿ってこのまま研究を進めていく。
|
Expenditure Plans for the Next FY Research Funding |
研究分担者が年度半ばで研究機関を異動した関係で、必要な研究基盤整備のための金額配分が当初の予定と異なってしまったため。 次年度が最終年度であることから、研究成果の公開のための費用と初年度未完了の研究基盤整備の費用として使用する予定。
|
Research Products
(8 results)