• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

高精度分析手法と統計的手法に基づく高品質音声合成

研究課題

研究課題/領域番号 12480079
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関東京大学

研究代表者

広瀬 啓吉  東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)

研究分担者 峯松 信明  東京大学, 大学院・情報理工学系研究科, 助教授 (90273333)
研究期間 (年度) 2000 – 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
10,000千円 (直接経費: 10,000千円)
2002年度: 2,800千円 (直接経費: 2,800千円)
2001年度: 4,400千円 (直接経費: 4,400千円)
2000年度: 2,800千円 (直接経費: 2,800千円)
キーワード統計的音声合成 / ターミナルアナログ合成 / 波形接続合成 / HMM音声合成 / AR-HMMモデル / 基本周波数パターン / 生成過程モデル / 感情音声合成 / 波形編集合成 / 声帯音源波形モデル / フォルマント推定 / 統計的音声合成手法 / 分節的特徴 / 韻律的特徴 / 対話音声 / ARX分析 / モーラ持続時間
研究概要

統計的音声合成手法において、分節的特徴としては声道伝達関数の極・零周波数の高精度分析結果を、韻律的特徴についてはモデルによる制約を利用することによって、高品質音声合成を実現することを目的として研究を進めた結果、以下の成果をあげ、当初の計画を達成した。
1.高精度で極、零点の情報を抽出する逐次近似ARX分析手法を開発し、既開発のターミナルアナログ合成器と組み合わせた分析合成ワークベンチを構築した。これにより流音等の高品質化を達成した。
2.ターミナルアナログ・波形接続折衷型の音声合成器を開発し、高品質音声合成を実現した。
3.音源波形をHMMで表現するAR-HMMモデルを用いて安定したフォルマント抽出が可能な手法を開発した。合成実験を行って、基本周波数(FO)の変更等に対して音質の劣化が小さいことを示した。
4.波形接続合成において、接続部に対応する自然音声をスペクトル上で重みをかけて重ね合わせることで連続的なスペクトルが得られることを確認した。また、使用頻度による重みつきVQで合成に用いる音声コーパスを有効に削減する手法を開発した。
5.HMM音声合成を構築し、話者適応に必要なデータサイズを合成音声品質の観点から調べた。10文強で十分な性能に達することが示された。
6.統計的手法を用いて生成過程モデルのパラメータを推定し、FOパターンを生成した。語の係り受け情報等を用い、少数の音声データから高品質を達成した。同様の枠組みでテキストからアクセント句境界を推定する手法も開発した。さらに感情音声のFOパターン生成、音素時間長推定を行い、良好な結果を得た。
7.上記と関連し、FOパターン生成過程モデルの指令を自動的に推定する手法を開発し、韻律コーパスを作成した。
8.対話調音声合成のためのモーラ持続時間制御規則を作成し、音声合成実験により、その有効性を示した。

報告書

(4件)
  • 2002 実績報告書   研究成果報告書概要
  • 2001 実績報告書
  • 2000 実績報告書
  • 研究成果

    (71件)

すべて その他

すべて 文献書誌 (71件)

  • [文献書誌] Keikichi Hirose: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. 36・1-2. 97-111 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 広瀬啓吉: "音声合成研究への招待 -自由な合成の実現に向けて-"情報処理. 43・3. 321-324 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 成澤修一: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43・7. 2155-2168 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Atsuhiro Sakurai: "Data-driven generation of FO contours using a superpositional model"Speech Communication. (発表予定). (2003)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Nobuyuki Nishizawa: "Development of a formant-based analysis-synthesis system and generation of high quality liquid sounds of Japanese"Proc. International Conference on Spoken Language Processing. 1. 725-728 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Atsuhiro Sakurai: "Modeling and generation of accentual phrase FO contours based on discrete HMMs synchronized at mora-unit transitions"Proc. International Conference on Spoken Language Processing. 3. 259-262 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc. Speech Prosody 2002. 391-394 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 3. 2085-2088 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Nobuyuki Nishizawa: "Separation of voiced source characteristics and vocal tract transfer function characteristics for speech sounds by iterative analysis based on AR-HMM model"Proc. International Conference on Spoken Language Processing. 3. 1721-1724 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose: "Corpus-based synthesis of FO contours for emotional speech using the generation process model"Proceedings 15th International Congress of Phonetic Sciences. (発表予定). (2003)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 西澤信行: "波形編集を併用したフォルマント音声合成"電子情報通信学会技術研究報告(音声研究会). 35-42 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Nettre Benjamin: "An experimental study on concatenative speech synthesis using a fusion technique and VCV/VV units"電子情報通信学会技術研究報告(音声研究会). 53-60 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] 広瀬啓吉: "音声情報処理におけるパラ・非言語情報"日本音響学会秋季講演論文集. 1. 243-246 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Wentao Gu: "Considerations on acoustic models for HMM-based Mandarin synthesis"日本音響学会春季講演論文集. (発表予定). (2003)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose: "Yesterday and for the Spoken Language Researches (Corpus-based synthesis of fundamental frequency contours for TTS systems based on a generation Process model)"TaeHakSa. 680(17) (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose and Hiromichi Kawanami: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. 36, 1-2. 97-111 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose: "Invitation to Speech Synthesis Research -Toward Realization of Flexible Synthesis-"Information Processing Society of Japan Magazine. 43, 3. 321-324 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Shuichi Narusawa, Nobuaki Minematsu, Keikichi Hirose and Hiroya Fujisaki: "A method for automatic extraction of parameters of the fundamental frequency contour generation model"IPSJ (Information Processing Society of Japan) Journal. 43, 7. 2155-2168 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Atsuhiro Sakurai, Keikichi Hirose and Nobuaki Minematsu: "Data-driven generation of F0 contours using a superpositional model"Speech Communication. to be published. (2003)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Nobuyuki Nishizawa, Nobuaki Minematsu and Keikichi Hirose: "Development of a formant-based analysis-synthesis system and generation of high quality liquid sounds of Japanese"Proc. International Conference on Spoken Language Processing. 1. 725-728 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Atsuhiro Sakurai, Koji Iwano and Keikichi Hirose: "Modeling and generation of accentual phrase F0 contours based on discrete HMMs synchronized at mora-unit transitions"Proc. International Conference on Spoken Language Processing. 3. 259-262 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose, Nobuaki Minematsu, and Masaya Eto: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc. Speech Prosody. 2002. 391-394 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose, Masaya Eto, and Nobuaki Minematsu: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 3. 2085-2088 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Nobuyuki Nishizawa, Keikichi Hirose, and Nobuaki Minematsu: "Separation of voiced source characteristics and vocal tract transfer function characteristics for speech sounds by iterative analysis based on AR-HMM model"Proc. International Conference on Spoken Language Processing. 3. 1721-1724 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose, Toshiya Katsura, and Nobuaki Minematsu: "Corpus-based synthesis of F0 contours for emotional speech using the generation process model"Proc. 15th International Congress of Phonetic Sciences. to be published. (2003)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Nobuyuki Nishizawa, Nobuaki Minematsu, and Keikichi Hirose: "Formant speech synthesis partly using waveform concatenative synthesis -Experimental study on VCV sounds-"IEICE Technical Report. SP2001-20. 35-42 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Nettre Benjamin, Keikichi Hirose, and Nobuaki Minematsu: "An experimental study on concatenative speech synthesis using a fusion technique and VCV/VV units"IEICE Technical Report. SP2001-121. 53-60 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose: "Para-and non-linguistic information in speech information processing"Record of Fall Meeting, Acoust. Soc. Japan. 1. 243-246 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Wentao Gu, Keikichi Hirose, Nobuaki Minematsu: "Considerations on acoustic models for HMM-based Mandarin synthesis"Record of Spring Meeting, Acoust. Soc. Japan. 1, to be published. (2003)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Keikichi Hirose, Nobuaki Minematsu and Masaya Eto: "Corpus-based synthesis of fundamental frequency contours for TTS systems based on a generation Process model"Yesterday and Today for the Spoken Language Researches, TaeHakSa. 461-477 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2002 研究成果報告書概要
  • [文献書誌] Sanghun Kim: "A new Korean corpus-based text-to-speech system"International Journal of Speech Technology. 5・2. 105-116 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 成澤修一: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43・7. 2155-2168 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Nobuaki Minematsu: "Automatic estimation of accentual attribute values of words for accent sandhi rules of Japanese text-to-speech conversion"IEICE Trans. Information and Systems, Vol.,No.1,pp.550-557. E86-D・1. 550-557 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Atsuhiro Sakurai: "Data-driven generation of FO contours using a superpositional model"Speech Communication. (発表予定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Keikichi Hirose: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc. Speech Prosody 2002. 391-394 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Shuichi Narusawa: "A method for automatic extraction of model parameters from fundamental frequency contours of speech"Proc. IEEE International Conference on Acoustics, Speech, & Signal. 1. 509-512 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Keikichi Hirose: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 3. 2085-2088 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Nobuyuki Nishizawa: "Separation of voiced source characteristics and vocal tract transfer function characteristics for speech sounds by iterative analysis based on AR-HMM model"Proc. International Conference on Spoken Language Processing. 3. 1721-1724 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Keikichi Hirose: "Corpus-based synthesis of FO contours for emotional speech using the generation process model"Proceedings 15th International Congress of Phonetic Sciences. (発表予定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 西澤信行: "音声合成のためのAR-HMMモデルに基づく音声分析手法の検討"電子情報通信学会技術研究報告(音声研究会). 35-40 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 桂 聡哉: "感情音声合成のための生成過程モデルに基づくコーパスベース韻律生成とその評価"電子情報通信学会技術研究報告(音声研究会). (発表予定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 広瀬啓吉: "音声情報処理におけるパラ・非言語情報"日本音響学会秋季講演論文集. I. 243-246 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Wentao Gu: "Considerations on acoustic models for HMM-based Mandarin synthesis"日本音響学会春季講演論文集. (発表予定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 西澤信行: "音声合成のためのAR-HMMモデリングに基づく音声自動分析"日本音響学会春季講演論文集. (発表予定). (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 広瀬啓吉: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. 36・1-2. 97-111 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 桜井淳宏: "Generation of F0 contours using model-constrained data-driven method"Proc.IEEE International Conference on Acoustics, Speech, & Signal Processing. 2. 817-820 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 広瀬啓吉: "Corpus-based synthesis of fundamental frequency contours based on a generation process model"Proc.European Conference on Speech Communication and Technology. 3. 2255-2258 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 峯松信明: "Quantitative analysis of F0-induced variations of cepstrum coefficients"Proceedings ISCA Tutorial and Research Workshop on : Prosody in Speech Recognition and Understanding. 113-117 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 広瀬啓吉: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc.Speech Prosody 2002. (発売予定). (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 成澤修一: "A method for automatic extraction of model parameters from fundamental frequency contours of speech"Proc.IEEE International Conference on Acoustics, Speech, & Signal Processing. (発売予定). (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 江藤雅哉: "生成過程モデルと統計的手法による基本周波数パターンの生成"電子情報通信学会技術研究報告(音声研究会). 1-8 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 西澤信行: "波形編集を併用したフォルマント音声合成"電子情報通信学会技術研究報告(音声研究会). 35-42 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 江藤雅哉: "生成過程モデルと統計的手法による統語構造を考慮した基本周波数パターンの生成"電子情報通信学会技術研究報告(音声研究会). 17-22 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Nettre Benjamin: "An experimental study on concatenative speech synthesis using a fusion technique and VCV/VV units"電子情報通信学会技術研究報告(音声研究会). 53-60 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 西澤信行: "自然音声波形を併用したハイブリッド型フォルトマン音声合成システムにおける子音波形テンプレート削減の検討"日本音響学会講演論文集. I. 237-238 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 江藤雅哉: "テキスト音声合成システムのための統計モデルによるF0パターン生成の改良"日本音響学会講演論文集. I. 245-246 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 喜多竜二: "テキスト音声合成のための日本語アクセント結合規則の構築"日本音響学会講演論文集. I. 247-248 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 西澤信行: "HMMによる音源モデルを用いたフォルトマント合成パラメータ推定"日本音響学会講演論文集. I. 357-358 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 広瀬啓吉: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. (発表予定). (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 峯松信明: "PSOLA分析合成に基づくFO変換音声の品質向上に関する実験的検討"電子情報通信学会論文誌. J83-D-II・7. 1590-1599 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 広瀬啓吉: "Analytical and perceptual study on the role of acoustic features in realizing emotional speech"Proc.International Conf.on Spoken Language Processing. 2. 369-372 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 西沢信行: "Development of a formant-based analysis-synthesis system and generation of high quality liquid sounds of Japanese"Proc.International Conf.on Spoken Language Processing. 1. 725-728 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 桜井淳宏: "Data-driven intonationmodeling using a neural network and a command response model"Proc.International Conf.on Spoken Language Processing. 3. 223-226 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 桜井淳宏: "Modeling and generation of accentual phrase F0 contours based on discrete HMMs synchronized at mora-unit transitions"Proc.International Conf.on Spoken Language Processing. 3. 259-262 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 桜井淳宏: "Generation of F0 contours using model-constrained data-driven method"Proceeding IEEE International Conference on Acoustics, Speech, & Signal Processing, Proc.IEEE International Conf.on Acoustics,Speech, & Signal Processing. (発表予定). (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 西沢信行: "フォルマント分析合成システムの開発と流音の合成"電子情報通信学会技術研究報告(音声研究会). 33-40 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 峯松信明: "日本語音声におけるスペクトル包絡と基本周波数間の依存性に関する定量的分析"電子情報通信学会技術研究報告(音声研究会). (発表予定). (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 西澤信行: "ターミナルアナログ合成による高品質な流音の生成"日本音響学会研究発表会講演論文集. I. 237-238 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 桜井淳宏: "ニュートラルネットワークによるFOパターン生成過程モデルパラメータの導出"日本音響学会研究発表会講演論文集. I. 249-250 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 西澤信行: "波形編集とターミナルアナログを併用した音声合成の検討"日本音響学会研究発表会講演論文集. I. 315-316 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] 江藤雅哉: "統計的手法を用いたテキストからの基本周波数パターン生成過程モデルパラメータの導出"日本音響学会研究発表会講演論文集. I. 261-262 (2000)

    • 関連する報告書
      2000 実績報告書

URL: 

公開日: 2000-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi