2001 Fiscal Year Annual Research Report
Project/Area Number |
12132202
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas (B)
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・新領域創成科学研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
WARD Nigel 東京大学, 大学院・情報理工学系研究科, 助教授 (00242008)
西田 豊明 東京大学, 大学院・情報理工学系研究科, 教授 (70135531)
徳田 恵一 名古屋工業大学, 工学部, 助教授 (20217483)
|
Keywords | 音声合成 / 生成過程モデル / 統計的基本周波数パターン生成 / 音声対話システム / 談話情報 / 発話速度 / 話者適応 / 多空間確率分布HMM |
Research Abstract |
種々の調子の音声を従来になく人間らしい抑揚で合成する技術を確立した上でユーザフレンドリな応答音声生成システムを構築することを目的として研究を進め、以下の成果を達成した。 1.生成過程モデルに基づいて基本周波数パターンを生成するコーパスベース手法において、語の係り受け情報等を用いることで、少数の韻律ラベル付き音声コーパスから、従来のルールベースに匹敵する品質を達成し得ることを示した。音声コーパスを自動作成した場合についても実験を行っている。 2.学術文献情報検索音声対話システムを構築し、その中で、応答文の概念から、韻律焦点位置を適切に制御して応答音声の合成を一貫して行う手法を実装した。 3.談話情報と韻律的特徴の関係について検討し、対人態度などに着目して談話情報として用いることのできるタグセットを提案するとともに、談話構造の解析法を開発した。また、対話音声の韻律的特徴を分析して定式化し、談話情報を反映した韻律制御システムのアーキテクチャについて基本設計を行った。 4.ユーザの発話速度や応答までの時間遅れによって応答音声の発話速度を制御する手法を提案し、電話番号の応答システムについてアルゴリズムを実装するとともに、その有効性を確認した。 5.HMMによりモデル化されたある話者の基本周波数パターンモデルを、少量の発話データを用いて異なる話者のモデルに変換するため、多空問確率分布HMMと最尤線形回帰に基づいた話者適応手法を提案し、数文章程度の適応データでも,多様な話者性を持った韻律生成が可能となることを明らかにした。 6.ガンマ分布による継続時間長モデルを既開発のHMM音声合成に導入し、より少ないHMMのモデルパラメータ数で同等の品質の基本周波数パターンを生成できることを示した。また、有声・無声境界でのダイナミックスを考慮した基本周波数パターンのモデル化手法を導入した。
|
-
[Publications] 広瀬啓吉: "Temporal rate change of dialogue speech in prosodic units as compared to read speech"Speech Communication. 36・1-2. 97-111 (2002)
-
[Publications] 桐山伸也: "Development and evaluation of a spoken dialogue system for academic document retrieval with a focus on reply generation"Systems and Computers in Japan. (掲載予定). (2002)
-
[Publications] 広瀬啓吉: "Corpus-based synthesis of fundamental frequency contours based on a generation process model"Proc. European Conference on Speech Communication and Technology. 3. 2255-2258 (2001)
-
[Publications] 桐山伸也: "Control of prosodic focuses for reply speech generation in a spoken dialogue system of information retrieval on academic documents"Proc. Speech Prosody 2002. (発表予定). (2002)
-
[Publications] 広瀬啓吉: "Data-driven synthesis of fundamental frequency contours for TTS systems based on a generation process model"Proc. Speech Prosody 2002. (発表予定). (2002)
-
[Publications] 成澤修一: "A method for automatic extraction of model parameters from fundamental frequency contours of speech"Proc. IEEE International Conference on Acoustics, Speech, & Signal Processing. (発表予定). (2002)
-
[Publications] 西田豊明: "知の創造と学習のための会話型コンテンツ"『情報技術と経済文化』,NTT出版(今井賢一編). (印刷中). (2002)
-
[Publications] 西田豊明: "Social intelligence design for knowledge creating communities"Proc. International Conference on Intelligent Agent Technology. 23-26 (2001)
-
[Publications] 塚原渉: "Responding to subtle, fleeting changes in the user's internal state"CHI Letters. 3・1. 77-84 (2001)
-
[Publications] WARD Nigel: "Conversational grunts and real-time interaction(招待)"Proc. International Conference on Speech Processing. 1. 53-58 (2001)
-
[Publications] 田村正統: "Text-to-speech synthesis with arbitrary speaker's voice from average voice"Proc. European Conference on Speech Communication and Technology. 3. 345-348 (2001)
-
[Publications] 田村正統: "HMM音声合成におけるMLLRを用いたピッチ・スペクトルの話者適応"電子情報通信学会技術研究報告(音声研究会). 101・86. 15-20 (2001)
-
[Publications] 全炳河: "有声/無声境界の動的特徴量を考慮したピッチのモデル化"電子情報通信学会技術研究報告(音声研究会). 101・325. 53-58 (2001)
-
[Publications] 石松喜信: "HMM音声合成におけるガンマ分布状態継続長モデルの検討"電子情報通信学会技術研究報告(音声研究会). 101・352. 57-62 (2001)