• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳

Research Project

Project/Area Number 21300061
Research InstitutionThe University of Tokyo

Principal Investigator

広瀬 啓吉  東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

Co-Investigator(Kenkyū-buntansha) 峯松 信明  東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)
Keywords生成過程モデル / 基本周波数パターン / コーパスベース韻律制御 / 音声自動翻訳 / 談話焦点 / HMM音声合成 / 声質と調子 / 音声モーフィング
Research Abstract

本研究は、"基本周波数パターン生成過程モデル(F_0モデル)の枠組みでのコーパスベース韻律制御に基づく音声合成"をもとに、多言語の韻律制御の研究を統合的に進め、声質や調子の柔軟な制御が可能な音声合成手法を当該言語について開発すると共に、それによって、もとの発話の声質・調子、あるいは意図・態度・感情等を翻訳後の音声に反映させることを行うもので、本年度は下記の成果を達成した。
1.観測あるいは合成で生成されるF0パターンについて、F0モデルの近似を行い、指令パラメータを自動抽出する新しい手法を開発した。HMM声合成との親和性を考慮し、HMMの分布統合で利用する言語情報を指令位置の制約として用い、フレーズ指令を先に検出することで、従来手法と比較して大幅な性能向上を得た。
2.HMM音声合成の学習コーパスのF0パターンをF_0モデルで近似したものとすることにより、HMM]音声合成の音質の向上を達成した。連続したF0パターンを用いることも行ったが、中国語と異なり音質が劣化する場合もあり、さらに検討が必要である。
3.HMM音声合成で生成されるF0パターンをF_0モデルで近似したものとする手法を開発し、音質向上を達成した。さらに、元音声と目標音声の指令パラメータの差分を学習し、元音声のF0パターンを修正することで目標音声を生成する手法を開発し、F0モデルで近似する手法と組み合わせることで、少量のコーパスから談話の焦点を実現した。
4.発話者の音声について、音素GMM(Gaussian Mixture Model)と韻律的特徴から、そこに含まれる意図を抽出する手法を開発した。これまでの音声合成の適応の成果と組み合わせ、談話・意図を再現する音声翻訳の実験を行った。(音声認識は手作業のWizard-of-0Zシステム)

  • Research Products

    (4 results)

All 2012 2011

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

  • [Journal Article] Improvement of prosody in HMM-based speech synthesis using generation process model2011

    • Author(s)
      Miaomiao Wang
    • Journal Title

      Journal of Research Institute of Signal Processing

      Volume: 15 Pages: 279-282

    • Peer Reviewed
  • [Journal Article] Adaptation of prosody in speech synthesis by changing command values of the generation process model of fundamental frequency2011

    • Author(s)
      Keikichi Hirose
    • Journal Title

      Proceedings of INTERSPEECH

      Volume: 1 Pages: 2793-2796

    • Peer Reviewed
  • [Journal Article] HMM-based F_0 contour synthesis using the generation process model2011

    • Author(s)
      Tatsuya Matsuda
    • Journal Title

      Acoustical Science and Technology, Acoustical Society of Japan

      Volume: (印刷中)(掲載確定)

    • Peer Reviewed
  • [Presentation] Fundamental frequency contour generation process model for improved and flexible control of prosodic features in hmm-based speech synthesis2012

    • Author(s)
      Keikichi Hirose
    • Organizer
      International Symposium on Frontiers of Research on Speech and Music
    • Place of Presentation
      KIIT, Gurgaon, India(招待講演)
    • Year and Date
      2012-01-19

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi