2001 Fiscal Year Annual Research Report
Project/Area Number |
12480079
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・情報理工学系研究科, 助教授 (90273333)
|
Keywords | 統計的音声合成 / ターミナルアナログ合成 / 波形編集合成 / HMM音声合成 / 声帯音源波形モデル / フォルマント推定 / 基本周波数パターン / 生成過程モデル |
Research Abstract |
統計的音声合成手法において、分節的特徴としては声道伝達関数の極・零周波数の高精度分析結果を、韻律的特徴についてモデルによる制約を利用することによって、高品質音声合成を実現することを目的とし、以下の成果を達成した。 1.子音部を波形編集方式で合成するターミナルアナログ・波形接続折衷型の音声合成器について、子音・母音遷移部の合成をターミナルアナログ合成により行うことにより、子音波形素片数の削減が可能なことを示した。 2.声帯音源波形モデルを用いたフォルマント推定を安定に行うために、HMMによる音源モデリングに基づいた音声分析手法を開発した。 3.波形編集合成において、波形素片接続部のスペクトル上の不連続性を低減するため、接続部に対応する自然音声を、スペクトル上で重みをかけて重ね合わせることを行い、実際に連続的なスペクトルが得られることを確認した。 4.統計的手法(回帰木分析、重線形回帰分析)を用いてアクセント句単位で生成過程モデルのパラメータを推定し、基本周波数パターンを生成することを進めた。語の係り受け情報、先行アクセント句情報を用いることで、300文程度の音声データから、従来のルールベースに匹敵する品質を達成し得ることを聴取実験等によって示した。また、同様の統計的枠組みでテキストからアクセント句境界を高精度に推定する手法を開発した。 5.生成過程モデルによる音声データのラベル付けを自動で行う手法を開発するとともに、得られた音声デタベースを用いて上記手法による基本周波数パターン生成を行い、その基本的な性能を確認した。 6.音素HMMの接続による合成アルゴリズムを作成し、基本周波数のスペクトル依存性を考慮する手法を開発した。なお、作成したアルゴリズムはLPCメルケプストラム係数とそのΔ、Δ^2をパラメータとするものであるが、容易にフォルマントに関するパラメータに変更可能である。
|
-
[Publications] 広瀬啓吉: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. 36・1-2. 97-111 (2002)
-
[Publications] 桜井淳宏: "Generation of F0 contours using model-constrained data-driven method"Proc.IEEE International Conference on Acoustics, Speech, & Signal Processing. 2. 817-820 (2001)
-
[Publications] 広瀬啓吉: "Corpus-based synthesis of fundamental frequency contours based on a generation process model"Proc.European Conference on Speech Communication and Technology. 3. 2255-2258 (2001)
-
[Publications] 峯松信明: "Quantitative analysis of F0-induced variations of cepstrum coefficients"Proceedings ISCA Tutorial and Research Workshop on : Prosody in Speech Recognition and Understanding. 113-117 (2001)
-
[Publications] 広瀬啓吉: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc.Speech Prosody 2002. (発売予定). (2002)
-
[Publications] 成澤修一: "A method for automatic extraction of model parameters from fundamental frequency contours of speech"Proc.IEEE International Conference on Acoustics, Speech, & Signal Processing. (発売予定). (2002)
-
[Publications] 江藤雅哉: "生成過程モデルと統計的手法による基本周波数パターンの生成"電子情報通信学会技術研究報告(音声研究会). 1-8 (2001)
-
[Publications] 西澤信行: "波形編集を併用したフォルマント音声合成"電子情報通信学会技術研究報告(音声研究会). 35-42 (2001)
-
[Publications] 江藤雅哉: "生成過程モデルと統計的手法による統語構造を考慮した基本周波数パターンの生成"電子情報通信学会技術研究報告(音声研究会). 17-22 (2002)
-
[Publications] Nettre Benjamin: "An experimental study on concatenative speech synthesis using a fusion technique and VCV/VV units"電子情報通信学会技術研究報告(音声研究会). 53-60 (2002)
-
[Publications] 西澤信行: "自然音声波形を併用したハイブリッド型フォルトマン音声合成システムにおける子音波形テンプレート削減の検討"日本音響学会講演論文集. I. 237-238 (2001)
-
[Publications] 江藤雅哉: "テキスト音声合成システムのための統計モデルによるF0パターン生成の改良"日本音響学会講演論文集. I. 245-246 (2002)
-
[Publications] 喜多竜二: "テキスト音声合成のための日本語アクセント結合規則の構築"日本音響学会講演論文集. I. 247-248 (2002)
-
[Publications] 西澤信行: "HMMによる音源モデルを用いたフォルトマント合成パラメータ推定"日本音響学会講演論文集. I. 357-358 (2002)