2000 Fiscal Year Annual Research Report
Project/Area Number |
12480079
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・工学系研究科, 助教授 (90273333)
|
Keywords | 統計的音声合成手法 / 分節的特徴 / 韻律的特徴 / 対話音声 / ARX分析 / ターミナルアナログ合成 / モーラ持続時間 / 生成過程モデル |
Research Abstract |
統計的音声合成手法において、分節的特徴としては声道伝達関数の極・零周波数の高精度分析結果を、韻律的特徴についてモデルによる制約を利用することによって、高品質音声合成を実現することを目的とし、本年度は、以下の成果を達成した。 1.音声合成用音声資料として、文章、単語、母音-子音-母音連鎖を読み上げた音声を東京方言男性話者について収録した。また対話調音声の分析用資料として模擬的な対話を行わせた音声も収集するとともに、種々の意図、感情を付与して発声した音声も収集した。 2.既開発の音素HMMを用いた連続音声の音素単位区分手法を用い、上記で収集した音声合成用資料を音素単位に区分し、前後の音韻環境、基本周波数の値を付して整理格納した。また、アクセント句単位の区分を行い、データとして格納した。 3.音源モデルを用いた逐次近似ARX分析により、音声から高精度に極、零点の情報を抽出する手法を開発し、既開発のマルチカスケード構造のターミナルアナログ音声合成器と組み合わせた分析合成ワークベンチを構築した。これを用いて流音の高品質化を達成した。 4.子音部を波形編集方式で合成するターミナルアナログ-波形接続折衷型の音声合成器を開発し、合成手法の切替による自然性の低減が小さいことを示した。 5.統計的基本周波数パターン合成において、生成過程モデルによる制約を加えることで、300文程度の小さなデータベースで、従来のルールベースに匹敵する品質を達成した。 対話調音声合成のためのモーラ持続時間制御規則を作成した。これは、朗読調音声の各モーラの持続時間を、基本周波数パターンによって定義された韻律句毎に対話音声のそれに変更することを基本とする。
|
-
[Publications] 広瀬啓吉: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. (発表予定). (2001)
-
[Publications] 峯松信明: "PSOLA分析合成に基づくFO変換音声の品質向上に関する実験的検討"電子情報通信学会論文誌. J83-D-II・7. 1590-1599 (2000)
-
[Publications] 広瀬啓吉: "Analytical and perceptual study on the role of acoustic features in realizing emotional speech"Proc.International Conf.on Spoken Language Processing. 2. 369-372 (2000)
-
[Publications] 西沢信行: "Development of a formant-based analysis-synthesis system and generation of high quality liquid sounds of Japanese"Proc.International Conf.on Spoken Language Processing. 1. 725-728 (2000)
-
[Publications] 桜井淳宏: "Data-driven intonationmodeling using a neural network and a command response model"Proc.International Conf.on Spoken Language Processing. 3. 223-226 (2000)
-
[Publications] 桜井淳宏: "Modeling and generation of accentual phrase F0 contours based on discrete HMMs synchronized at mora-unit transitions"Proc.International Conf.on Spoken Language Processing. 3. 259-262 (2000)
-
[Publications] 桜井淳宏: "Generation of F0 contours using model-constrained data-driven method"Proceeding IEEE International Conference on Acoustics, Speech, & Signal Processing, Proc.IEEE International Conf.on Acoustics,Speech, & Signal Processing. (発表予定). (2001)
-
[Publications] 西沢信行: "フォルマント分析合成システムの開発と流音の合成"電子情報通信学会技術研究報告(音声研究会). 33-40 (2000)
-
[Publications] 峯松信明: "日本語音声におけるスペクトル包絡と基本周波数間の依存性に関する定量的分析"電子情報通信学会技術研究報告(音声研究会). (発表予定). (2001)
-
[Publications] 西澤信行: "ターミナルアナログ合成による高品質な流音の生成"日本音響学会研究発表会講演論文集. I. 237-238 (2000)
-
[Publications] 桜井淳宏: "ニュートラルネットワークによるFOパターン生成過程モデルパラメータの導出"日本音響学会研究発表会講演論文集. I. 249-250 (2000)
-
[Publications] 西澤信行: "波形編集とターミナルアナログを併用した音声合成の検討"日本音響学会研究発表会講演論文集. I. 315-316 (2000)
-
[Publications] 江藤雅哉: "統計的手法を用いたテキストからの基本周波数パターン生成過程モデルパラメータの導出"日本音響学会研究発表会講演論文集. I. 261-262 (2000)