2000 年度実績報告書

高品質音声合成のための韻律制御

研究課題

研究課題/領域番号	12132202
研究種目	特定領域研究(B)
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
研究分担者	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616) WARD Nigel 東京大学, 大学院・工学系研究科, 助教授 (00242008) 西田豊明東京大学, 大学院・工学系研究科, 教授 (70135531) 徳田恵一名古屋工業大学, 工学部, 助教授 (20217483)
キーワード	音声合成 / パラ・非言語情報 / 統計的F0パターン生成 / 対話調音声 / 談話情報 / Fillerの韻律 / 基本周波数抽出 / 多空間確率分布HMM
研究概要	パラ・非言語情報の伝達をも視野に入れた上で、種々の調子の音声を従来になく人間らしい抑揚で合成する技術を確立した上でユーザフレンドリな応答音声生成システムを構築することを目的として研究を進め、本年度は以下の成果を達成した。 1.生成過程モデルに基づいて基本周波数(F0)パターンの自動分析を行う手法において、アクセント成分の影響を低域パスフィルタで軽減し、韻律に関する知識を利用することでフレーズ成分パラメータの推定精度を向上した。 2.ニューラルネットワークや数量化分析を用いた統計的F0パターン合成において、生成過程モデルによる制約を加えることで、300文程度の小さなデータベースで、従来のルールベースに匹敵する品質を達成した。 3.対話調音声合成のモーラ持続時間制御について、朗読調のモーラ持続時間を韻律句単位でテンプレートを用いて補正する手法を開発した。 4.談話情報を反映した韻律制御システムのアーキテクチャの基本設計を行うとともに、内容に基づいて談話構造を抽出する手法を開発した。これは文章の接続関係から語彙連鎖を求め、重要語を抽出することを基本とする。 5.相槌をはじめとする挿入句的な短文について、談話的あるいは感性的な種々の意味が韻律のどの様な特徴によって伝達されるかを、聴取実験等により系統的に明らかにした。 6.位相の時間微分として定義される瞬時周波数に基づく基本周波数の抽出手法を従来から開発しているが、調波構造が明確な周波数帯域に着目することにより、基本周波数の大きな抽出誤りを大幅に低減可能なことを示した。基本周波数パターンの統計的モデル化手法として、多空間確率分布HMMを既に開発しているが、これに対し、観測系列に対する尤度の局所的最大値をとるモデルパラメータを求める再推定アルゴリズムを構築した。また、離散HMMと連続分布HMMの意味付けを行った。

研究成果
(16件)

すべてその他

すべて文献書誌 (16件)

[文献書誌] 広瀬啓吉: "Analytical and perceptual study on the role of acoustic features in realizing emotional speech"Proc.International Conf.on Spoken Language Processing. 2. 369-372 (2000)
[文献書誌] 桜井淳宏: "Data-driven intonation modeling using a neural network and a command response model"Proc.International Conf.on Spoken Language Processing. 3. 223-226 (2000)
[文献書誌] 桜井淳宏: "Modeling and generation of accentual phrase F0 contours based on discrete HMMs synchronized at mora-unit transitions"Proc.International Conf.on Spoken Language Processing. 3. 259-262 (2000)
[文献書誌] 桐山伸也: "応答生成に着目した学術文献音声対話システムの構築とその評価"電子情報通信学会論文誌. J83-D-II・11. 2318-2329 (2000)
[文献書誌] 桐山伸也: "Development and evaluation of a spoken dialogue system for academic document retrieval with a focus on reply generation"Proc.8-th Australian International Conference on Speech Science and Technology. 32-37 (2000)
[文献書誌] 広瀬啓吉: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. (発表予定). (2001)
[文献書誌] 桜井淳宏: "Generation of FO contours using model-constrained data-driven method"Proc.IEEE International Conf.on Acoustics, Speech,& Signal Processing. (発表予定). (2001)
[文献書誌] 西田豊明: "Towards dynamic knowledge interaction (Keynote Paper)"Proc.4th International Conf.on Knowledge-based Intelligent Engineering Systems & Allied Technologies. 1-12 (2000)
[文献書誌] 久保田秀和: "EgoChat Agent : A talking virtualized member for supporting community knowledge creation"Proc.AAAI Fall Symposium "Society Intelligent Agents-The Human in the Loop". (発表予定). (2001)
[文献書誌] WARD,Nigel: "Prosodic features which cue back-channel feedback in English and Japanese"Journal of Pragmatics. 32. 1177-1207 (2000)
[文献書誌] WARD,Nigel: "The challenge of non-lexical speech sounds"Proc.International Conf.on Spoken Language Processing. 2. 571-574 (2000)
[文献書誌] 益子貴史: "多空間確率分布HMMによるピッチパターン生成"電子情報通信学会論文誌. J83-D-II・7. 1600-1609 (2000)
[文献書誌] 田中智宏: "瞬時周波数振幅スペクトルに基づくピッチ抽出法の検討"電子情報通信学会技術報告(音声研究会). (発表予定). (2001)
[文献書誌] 徳田恵一: "多空間上の確率分布に基づいたHMM"電子情報通信学会論文誌. J83-D-II・7. 1579-1589 (2000)
[文献書誌] 吉村貴克: "HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"電子情報通信学会論文誌. J83-D-II・7. 2099-2107 (2000)
[文献書誌] 徳田恵一: "Speech parameter generation algorithms for HMM-based speech synthesis"Proc.IEEE International Conf.on Acoustics, Speech, & Signal Processing. 3. 1315-1318 (2000)

2000 年度 実績報告書

高品質音声合成のための韻律制御

研究代表者

広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)

研究成果

[文献書誌] 広瀬啓吉: "Analytical and perceptual study on the role of acoustic features in realizing emotional speech"Proc.International Conf.on Spoken Language Processing. 2. 369-372 (2000)

[文献書誌] 桜井淳宏: "Data-driven intonation modeling using a neural network and a command response model"Proc.International Conf.on Spoken Language Processing. 3. 223-226 (2000)

[文献書誌] 桜井淳宏: "Modeling and generation of accentual phrase F0 contours based on discrete HMMs synchronized at mora-unit transitions"Proc.International Conf.on Spoken Language Processing. 3. 259-262 (2000)

[文献書誌] 桐山伸也: "応答生成に着目した学術文献音声対話システムの構築とその評価"電子情報通信学会論文誌. J83-D-II・11. 2318-2329 (2000)

[文献書誌] 桐山伸也: "Development and evaluation of a spoken dialogue system for academic document retrieval with a focus on reply generation"Proc.8-th Australian International Conference on Speech Science and Technology. 32-37 (2000)

[文献書誌] 広瀬啓吉: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. (発表予定). (2001)

[文献書誌] 桜井淳宏: "Generation of FO contours using model-constrained data-driven method"Proc.IEEE International Conf.on Acoustics, Speech,& Signal Processing. (発表予定). (2001)

[文献書誌] 西田豊明: "Towards dynamic knowledge interaction (Keynote Paper)"Proc.4th International Conf.on Knowledge-based Intelligent Engineering Systems & Allied Technologies. 1-12 (2000)

[文献書誌] 久保田秀和: "EgoChat Agent : A talking virtualized member for supporting community knowledge creation"Proc.AAAI Fall Symposium "Society Intelligent Agents-The Human in the Loop". (発表予定). (2001)

[文献書誌] WARD,Nigel: "Prosodic features which cue back-channel feedback in English and Japanese"Journal of Pragmatics. 32. 1177-1207 (2000)

[文献書誌] WARD,Nigel: "The challenge of non-lexical speech sounds"Proc.International Conf.on Spoken Language Processing. 2. 571-574 (2000)

[文献書誌] 益子貴史: "多空間確率分布HMMによるピッチパターン生成"電子情報通信学会論文誌. J83-D-II・7. 1600-1609 (2000)

[文献書誌] 田中智宏: "瞬時周波数振幅スペクトルに基づくピッチ抽出法の検討"電子情報通信学会技術報告(音声研究会). (発表予定). (2001)

[文献書誌] 徳田恵一: "多空間上の確率分布に基づいたHMM"電子情報通信学会論文誌. J83-D-II・7. 1579-1589 (2000)

[文献書誌] 吉村貴克: "HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化"電子情報通信学会論文誌. J83-D-II・7. 2099-2107 (2000)

[文献書誌] 徳田恵一: "Speech parameter generation algorithms for HMM-based speech synthesis"Proc.IEEE International Conf.on Acoustics, Speech, & Signal Processing. 3. 1315-1318 (2000)

2000 年度実績報告書

広瀬啓吉東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)