2002 年度実績報告書

高品質音声合成のための韻律制御

研究課題

研究課題/領域番号	12132202
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
研究分担者	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616) WARD Nigel 東京大学, 大学院・情報理工学系研究科, 助教授 (00242008) 西田豊明東京大学, 大学院・情報理工学系研究科, 教授 (70135531) 徳田恵一名古屋工業大学, 工学部, 助教授 (20217483)
キーワード	音声合成 / 生成過程モデル / 回帰木 / 音声対話システム / 感情音声 / 発話速度 / 平均声モデル / 固有音声
研究概要	種々の調子の音声を従来になく人間らしい抑揚で合成する技術を確立した上でユーザフレンドリな応答音声生成システムを構築することを目的として研究を進め、以下の成果を達成した。 1.当該アクセント句と先行句の言語情報、句境界の深さから基本周波数(F0)パターン生成過程モデルの指令を回帰木により推定した。F0パターンを生成して推定の妥当性を示した。また感情音声のF0パターン生成、音素時間長推定を行い、良好な結果を得た。なお、学習用コーパスのモデルの指令は自動的に求めた。 2.計算機上に作成した仮想な部屋の中でエージェントに作業をさせる音声対話システムを構築した。その中で、応答文の概念から音声合成を一貫して行う手法を実装した。 3.会話を管理する最小の単位を知識カードとして定義した。知識カードを用いてエージェントの発話内容を生成する手法を開発し、韻律制御の手法を検討した。 4.ユーザの発話速度と応答までの時間遅れに対応して、応答音声の発話速度を制御する手法を提案した。電話番号の応答システムについてアルゴリズムを実装し、システムの利用実験により有効性を確認した。 5.話者適応により任意の話者の音声を生成するための平均声モデルの作成を行った。学習データが限られている場合、モデルに個人性が残り、適応後の音声の品質劣化となる。これに対処する手法として、文脈クラスタと話者適応学習を導入した結果、より自然性の高い合成音声が得られた。また、話者適応により、対象話者により近い声質の合成音声が得られた。多量の特定話者HMMについて、個々の話者のHMMを多次元のパラメータで表現した上で、その固有値としての"固有声"を求める手法をHMM音声合成に適用した。固有声に重みをかけて複合することにより、種々の声質の合成が可能である。合成の結果得られるスペクトルとF0パターンから最適な重みの決定手法について検討した。

研究成果
(14件)

すべてその他

すべて文献書誌 (14件)

[文献書誌] Shinya Kiriyama: "Development and evaluation of a spoken dialogue system for academic document retrieval with a focus on reply generation"Systems and Computers in Japan. 33・4. 25-39 (2002)
[文献書誌] 成澤修一: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43・7. 2155-2168 (2002)
[文献書誌] Nobuaki Minematsu: "Automatic estimation of accentual attribute values of words for accent sandhi rules of Japanese text-to-speech conversion"IEICE Trans. Information and Systems. E86-D・1. 550-557 (2003)
[文献書誌] Atsuhiro Sakurai: "Data-driven generation of F0 contours using a superpositional model"Speech Communication. (発表予定). (2003)
[文献書誌] Keikichi Hirose: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 2085-2088 (2002)
[文献書誌] 多胡順司: "エージェント対話システムにおける音声応答生成手法"日本音響学会平成15年度春季研究発表会講演論文集. 1(発表予定). (2003)
[文献書誌] Keikichi Hirose: "Corpus-based synthesis of F0 contours for emotional speech using the generation process model"Proceedings 15th International Congress of Phonetic Sciences. (発表予定). (2003)
[文献書誌] 西田悠介: "料理教示発話の構造解析"言語処理学会第9回年次大会論文集. (発表予定). (2003)
[文献書誌] Nigel Ward: "Automatic user-adaptive speaking rate selection for information delivery"Proc. International Conference on Spoken Language Processing. 1. 549-552 (2002)
[文献書誌] Masafumi Okamoto: "Quantitative estimation of the meanings of the phonetic components of back-channels"Proc. 35th Spoken Language Understanding and Discourse Workshop. 47-52 (2002)
[文献書誌] 田村正統: "HMMに基づく音声合成におけるピッチ・スペクトルの話者適応"電子情報通信学会論文誌. J85-D-II・4. 545-553 (2002)
[文献書誌] Junichi Yamagishi: "A context clustering technique for average voice models"IEICE Trans. on Information and Systems. E86-D・3. 534-542 (2003)
[文献書誌] Keiichi Tokuda: "An HMM-based speech synthesis system applied to English"Proc. IEEE Speech Synthesis Workshop. (CD-ROM). (2002)
[文献書誌] Kengo Shichiri: "Eigenvoices for HMM-based speech synthesis"Proc. International Conference on Spoken Language Processing. 2. 1269-1272 (2002)

2002 年度 実績報告書

高品質音声合成のための韻律制御

研究代表者

広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)

研究成果

[文献書誌] Shinya Kiriyama: "Development and evaluation of a spoken dialogue system for academic document retrieval with a focus on reply generation"Systems and Computers in Japan. 33・4. 25-39 (2002)

[文献書誌] 成澤修一: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43・7. 2155-2168 (2002)

[文献書誌] Nobuaki Minematsu: "Automatic estimation of accentual attribute values of words for accent sandhi rules of Japanese text-to-speech conversion"IEICE Trans. Information and Systems. E86-D・1. 550-557 (2003)

[文献書誌] Atsuhiro Sakurai: "Data-driven generation of F0 contours using a superpositional model"Speech Communication. (発表予定). (2003)

[文献書誌] Keikichi Hirose: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 2085-2088 (2002)

[文献書誌] 多胡 順司: "エージェント対話システムにおける音声応答生成手法"日本音響学会平成15年度春季研究発表会講演論文集. 1(発表予定). (2003)

[文献書誌] Keikichi Hirose: "Corpus-based synthesis of F0 contours for emotional speech using the generation process model"Proceedings 15th International Congress of Phonetic Sciences. (発表予定). (2003)

[文献書誌] 西田悠介: "料理教示発話の構造解析"言語処理学会第9回年次大会論文集. (発表予定). (2003)

[文献書誌] Nigel Ward: "Automatic user-adaptive speaking rate selection for information delivery"Proc. International Conference on Spoken Language Processing. 1. 549-552 (2002)

[文献書誌] Masafumi Okamoto: "Quantitative estimation of the meanings of the phonetic components of back-channels"Proc. 35th Spoken Language Understanding and Discourse Workshop. 47-52 (2002)

[文献書誌] 田村正統: "HMMに基づく音声合成におけるピッチ・スペクトルの話者適応"電子情報通信学会論文誌. J85-D-II・4. 545-553 (2002)

[文献書誌] Junichi Yamagishi: "A context clustering technique for average voice models"IEICE Trans. on Information and Systems. E86-D・3. 534-542 (2003)

[文献書誌] Keiichi Tokuda: "An HMM-based speech synthesis system applied to English"Proc. IEEE Speech Synthesis Workshop. (CD-ROM). (2002)

[文献書誌] Kengo Shichiri: "Eigenvoices for HMM-based speech synthesis"Proc. International Conference on Spoken Language Processing. 2. 1269-1272 (2002)

2002 年度実績報告書

広瀬啓吉東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)

[文献書誌] 多胡順司: "エージェント対話システムにおける音声応答生成手法"日本音響学会平成15年度春季研究発表会講演論文集. 1(発表予定). (2003)