• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2002 年度 研究成果報告書概要

高精度分析手法と統計的手法に基づく高品質音声合成

研究課題

研究課題/領域番号 12480079
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関東京大学

研究代表者

広瀬 啓吉  東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)

研究分担者 峯松 信明  東京大学, 大学院・情報理工学系研究科, 助教授 (90273333)
研究期間 (年度) 2000 – 2002
キーワード統計的音声合成 / ターミナルアナログ合成 / 波形接続合成 / HMM音声合成 / AR-HMMモデル / 基本周波数パターン / 生成過程モデル / 感情音声合成
研究概要

統計的音声合成手法において、分節的特徴としては声道伝達関数の極・零周波数の高精度分析結果を、韻律的特徴についてはモデルによる制約を利用することによって、高品質音声合成を実現することを目的として研究を進めた結果、以下の成果をあげ、当初の計画を達成した。
1.高精度で極、零点の情報を抽出する逐次近似ARX分析手法を開発し、既開発のターミナルアナログ合成器と組み合わせた分析合成ワークベンチを構築した。これにより流音等の高品質化を達成した。
2.ターミナルアナログ・波形接続折衷型の音声合成器を開発し、高品質音声合成を実現した。
3.音源波形をHMMで表現するAR-HMMモデルを用いて安定したフォルマント抽出が可能な手法を開発した。合成実験を行って、基本周波数(FO)の変更等に対して音質の劣化が小さいことを示した。
4.波形接続合成において、接続部に対応する自然音声をスペクトル上で重みをかけて重ね合わせることで連続的なスペクトルが得られることを確認した。また、使用頻度による重みつきVQで合成に用いる音声コーパスを有効に削減する手法を開発した。
5.HMM音声合成を構築し、話者適応に必要なデータサイズを合成音声品質の観点から調べた。10文強で十分な性能に達することが示された。
6.統計的手法を用いて生成過程モデルのパラメータを推定し、FOパターンを生成した。語の係り受け情報等を用い、少数の音声データから高品質を達成した。同様の枠組みでテキストからアクセント句境界を推定する手法も開発した。さらに感情音声のFOパターン生成、音素時間長推定を行い、良好な結果を得た。
7.上記と関連し、FOパターン生成過程モデルの指令を自動的に推定する手法を開発し、韻律コーパスを作成した。
8.対話調音声合成のためのモーラ持続時間制御規則を作成し、音声合成実験により、その有効性を示した。

  • 研究成果

    (30件)

すべて その他

すべて 文献書誌 (30件)

  • [文献書誌] Keikichi Hirose: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. 36・1-2. 97-111 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 広瀬啓吉: "音声合成研究への招待 -自由な合成の実現に向けて-"情報処理. 43・3. 321-324 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 成澤修一: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43・7. 2155-2168 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Atsuhiro Sakurai: "Data-driven generation of FO contours using a superpositional model"Speech Communication. (発表予定). (2003)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Nobuyuki Nishizawa: "Development of a formant-based analysis-synthesis system and generation of high quality liquid sounds of Japanese"Proc. International Conference on Spoken Language Processing. 1. 725-728 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Atsuhiro Sakurai: "Modeling and generation of accentual phrase FO contours based on discrete HMMs synchronized at mora-unit transitions"Proc. International Conference on Spoken Language Processing. 3. 259-262 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Keikichi Hirose: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc. Speech Prosody 2002. 391-394 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Keikichi Hirose: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 3. 2085-2088 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Nobuyuki Nishizawa: "Separation of voiced source characteristics and vocal tract transfer function characteristics for speech sounds by iterative analysis based on AR-HMM model"Proc. International Conference on Spoken Language Processing. 3. 1721-1724 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Keikichi Hirose: "Corpus-based synthesis of FO contours for emotional speech using the generation process model"Proceedings 15th International Congress of Phonetic Sciences. (発表予定). (2003)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 西澤信行: "波形編集を併用したフォルマント音声合成"電子情報通信学会技術研究報告(音声研究会). 35-42 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Nettre Benjamin: "An experimental study on concatenative speech synthesis using a fusion technique and VCV/VV units"電子情報通信学会技術研究報告(音声研究会). 53-60 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 広瀬啓吉: "音声情報処理におけるパラ・非言語情報"日本音響学会秋季講演論文集. 1. 243-246 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Wentao Gu: "Considerations on acoustic models for HMM-based Mandarin synthesis"日本音響学会春季講演論文集. (発表予定). (2003)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Keikichi Hirose: "Yesterday and for the Spoken Language Researches (Corpus-based synthesis of fundamental frequency contours for TTS systems based on a generation Process model)"TaeHakSa. 680(17) (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Keikichi Hirose and Hiromichi Kawanami: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. 36, 1-2. 97-111 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Keikichi Hirose: "Invitation to Speech Synthesis Research -Toward Realization of Flexible Synthesis-"Information Processing Society of Japan Magazine. 43, 3. 321-324 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Shuichi Narusawa, Nobuaki Minematsu, Keikichi Hirose and Hiroya Fujisaki: "A method for automatic extraction of parameters of the fundamental frequency contour generation model"IPSJ (Information Processing Society of Japan) Journal. 43, 7. 2155-2168 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Atsuhiro Sakurai, Keikichi Hirose and Nobuaki Minematsu: "Data-driven generation of F0 contours using a superpositional model"Speech Communication. to be published. (2003)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Nobuyuki Nishizawa, Nobuaki Minematsu and Keikichi Hirose: "Development of a formant-based analysis-synthesis system and generation of high quality liquid sounds of Japanese"Proc. International Conference on Spoken Language Processing. 1. 725-728 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Atsuhiro Sakurai, Koji Iwano and Keikichi Hirose: "Modeling and generation of accentual phrase F0 contours based on discrete HMMs synchronized at mora-unit transitions"Proc. International Conference on Spoken Language Processing. 3. 259-262 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Keikichi Hirose, Nobuaki Minematsu, and Masaya Eto: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc. Speech Prosody. 2002. 391-394 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Keikichi Hirose, Masaya Eto, and Nobuaki Minematsu: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 3. 2085-2088 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Nobuyuki Nishizawa, Keikichi Hirose, and Nobuaki Minematsu: "Separation of voiced source characteristics and vocal tract transfer function characteristics for speech sounds by iterative analysis based on AR-HMM model"Proc. International Conference on Spoken Language Processing. 3. 1721-1724 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Keikichi Hirose, Toshiya Katsura, and Nobuaki Minematsu: "Corpus-based synthesis of F0 contours for emotional speech using the generation process model"Proc. 15th International Congress of Phonetic Sciences. to be published. (2003)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Nobuyuki Nishizawa, Nobuaki Minematsu, and Keikichi Hirose: "Formant speech synthesis partly using waveform concatenative synthesis -Experimental study on VCV sounds-"IEICE Technical Report. SP2001-20. 35-42 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Nettre Benjamin, Keikichi Hirose, and Nobuaki Minematsu: "An experimental study on concatenative speech synthesis using a fusion technique and VCV/VV units"IEICE Technical Report. SP2001-121. 53-60 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Keikichi Hirose: "Para-and non-linguistic information in speech information processing"Record of Fall Meeting, Acoust. Soc. Japan. 1. 243-246 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Wentao Gu, Keikichi Hirose, Nobuaki Minematsu: "Considerations on acoustic models for HMM-based Mandarin synthesis"Record of Spring Meeting, Acoust. Soc. Japan. 1, to be published. (2003)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Keikichi Hirose, Nobuaki Minematsu and Masaya Eto: "Corpus-based synthesis of fundamental frequency contours for TTS systems based on a generation Process model"Yesterday and Today for the Spoken Language Researches, TaeHakSa. 461-477 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より

URL: 

公開日: 2004-04-14  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi