2002 Fiscal Year Annual Research Report
Project/Area Number |
12480079
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・情報理工学系研究科, 助教授 (90273333)
|
Keywords | 統計的音声合成 / ターミナルアナログ合成 / 波形接続合成 / HMM音声合成 / AR-HMMモデル / 基本周波数パターン / 生成過程モデル / 感情音声合成 |
Research Abstract |
統計的音声合成手法において、分節的特徴としては声道伝達関数の極・零周波数の高精度分析結果を、韻律的特徴についてはモデルによる制約を利用することによって、高品質音声合成を実現することを目的とし、以下の成果を達成した。 1.音源波形をHMMで表現するAR-HMMモデルにおいて、AR部に実極を含まないように逐次計算することで、安定したフォルマント抽出が可能になることを示した。フォルマント合成を行って、基本周波数の変更等に対して音質の劣化が小さいことを示した。 2.波形接続合成において、合成での使用頻度を重みとした重みつきVQで合成に用いる音声コーパスを削減する手法を開発し、聴取実験によって、音声合成品質の劣化がほとんどなしに30%程度の削減が可能なことを示した。 3.HMM音声合成で話者適応に必要な適応データのサイズを合成音声の品質の観点から調べた。その結果、12〜15文で十分な性能に達することが示された。 4.アクセント句を単位とし、その句と先行句の言語情報、句境界の深さから基本周波数(FO)パターン生成過程モデルの指令を回帰木により推定した。推定された指令をもとにFOパターンを生成し、推定の妥当性を示した。学習用コーパスのモデルの指令は5の方法で自動的に求めた。 5.FOパターン生成過程モデルの指令を自動的に推定する手法を開発した。この手法は、観測されたFOパターンを3次関数により平滑化し、その微係数の極値からアクセント指令を求めることに基づく。8割程度の精度で指令の検出が可能なことが示された。さらに、発話内容を利用することで数%の性能向上が可能なことを示した。 上記4の枠組みにより、コーパスベースの感情音声韻律生成を行った。目標値と推定値との誤差はほぼ平静の場合と同じで、基本周波数パターンの生成が良好に行われたことを示している。また、音素持続時間長の推定も行い、良好な結果を得た。
|
-
[Publications] Sanghun Kim: "A new Korean corpus-based text-to-speech system"International Journal of Speech Technology. 5・2. 105-116 (2002)
-
[Publications] 成澤修一: "音声の基本周波数パターン生成過程モデルのパラメータ自動抽出法"情報処理学会論文誌. 43・7. 2155-2168 (2002)
-
[Publications] Nobuaki Minematsu: "Automatic estimation of accentual attribute values of words for accent sandhi rules of Japanese text-to-speech conversion"IEICE Trans. Information and Systems, Vol.,No.1,pp.550-557. E86-D・1. 550-557 (2003)
-
[Publications] Atsuhiro Sakurai: "Data-driven generation of FO contours using a superpositional model"Speech Communication. (発表予定). (2003)
-
[Publications] Keikichi Hirose: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc. Speech Prosody 2002. 391-394 (2002)
-
[Publications] Shuichi Narusawa: "A method for automatic extraction of model parameters from fundamental frequency contours of speech"Proc. IEEE International Conference on Acoustics, Speech, & Signal. 1. 509-512 (2002)
-
[Publications] Keikichi Hirose: "Improved corpus-based synthesis of fundamental frequency contours using generation process model"Proc. International Conference on Spoken Language Processing. 3. 2085-2088 (2002)
-
[Publications] Nobuyuki Nishizawa: "Separation of voiced source characteristics and vocal tract transfer function characteristics for speech sounds by iterative analysis based on AR-HMM model"Proc. International Conference on Spoken Language Processing. 3. 1721-1724 (2002)
-
[Publications] Keikichi Hirose: "Corpus-based synthesis of FO contours for emotional speech using the generation process model"Proceedings 15th International Congress of Phonetic Sciences. (発表予定). (2003)
-
[Publications] 西澤信行: "音声合成のためのAR-HMMモデルに基づく音声分析手法の検討"電子情報通信学会技術研究報告(音声研究会). 35-40 (2002)
-
[Publications] 桂 聡哉: "感情音声合成のための生成過程モデルに基づくコーパスベース韻律生成とその評価"電子情報通信学会技術研究報告(音声研究会). (発表予定). (2003)
-
[Publications] 広瀬啓吉: "音声情報処理におけるパラ・非言語情報"日本音響学会秋季講演論文集. I. 243-246 (2002)
-
[Publications] Wentao Gu: "Considerations on acoustic models for HMM-based Mandarin synthesis"日本音響学会春季講演論文集. (発表予定). (2003)
-
[Publications] 西澤信行: "音声合成のためのAR-HMMモデリングに基づく音声自動分析"日本音響学会春季講演論文集. (発表予定). (2003)