2003 Fiscal Year Annual Research Report
平均声に基づく多様な声質・発話スタイルが可能な音声合成の実現
Project/Area Number |
15300055
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
|
Co-Investigator(Kenkyū-buntansha) |
住田 一男 株式会社東芝, 研究開発センター・知識メディアラボラトリー, 室長(研究職)
益子 貴史 東京工業大学, 大学院・総合理工学研究科, 助手 (90272715)
|
Keywords | 音声合成 / テキスト音声合成 / HMM音声合成 / 平均声 / 発話スタイル / 感情音声 / スタイル補間 / スタイル適応 |
Research Abstract |
本研究では「平均声からの音声合成」という新たな音声合成の枠組みを発展させ,任意の話者の多様な声質や発話様式など,各個人が持っている話し方の個性を自由に表現でき,気の利いた音声インタラクションが実現可能な音声合成システムを開発することを目的とし,研究の初年度として,平均声モデルから目標とする任意の話者モデルへの適応手法の確立を重点において以下の検討を行った。 1.平均声モデルから任意の話者モデルへの適応手法として,構造的最大事後確率線形回帰(SMAPLR)に基づくモデル適応手法を提案し,その有効性を示した。また,平均声モデルのモデル化手法の基本として,対数正規分布に基づく継続時間長のモデル化と多空間確率分布に基づくポーズのモデル化と生成手法について基礎的な検討を行った。 2.多様な感情や発話様式を含む音声合成に向けて,「丁寧/ぞんざい」,「楽しげ/悲嘆」,「安心/不安」,「速く/ゆっくり」,「親しげ/嫌悪」というスタイルの音声を収録した。収録音声は,次年度以降にラベル付けを行いデータベース化する予定である。 3.多様な感情・発話様式を含む音声のモデル化手法として,HMM音声合成におけるスタイル依存モデルとスタイル混合モデルの二つのモデル化手法を提案するとともに,多様なスタイル音声の生成手法としてスタイル補間手法とスタイル適応手法を提案した。そして「丁寧」,「ぞんざい」,「楽しげ」,「悲嘆」の各スタイルについて,スタイルのモデル化と多様なスタイルでの音声合成実験・評価を行い,提案手法の有効性を示した。
|
Research Products
(14 results)
-
[Publications] 山岸順一: "HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討"電子情報通信学会技術研究報告. 103・264. 31-36 (2003)
-
[Publications] 橘 誠: "HMM音声合成におけるモデル補間・適応による発話スタイルの多様化の検討"電子情報通信学会技術研究報告. 103・264. 37-42 (2003)
-
[Publications] 広畑 誠: "声道長正規化を用いた平均声モデル学習の検討"電子情報通信学会技術研究報告. 103・27. 69-75 (2003)
-
[Publications] 益子貴史: "HMMからの尤度最大基準にもとづく条件つきパラメータ生成の検討"日本音響学会2003年秋季研究発表会講演論文集. I. 209-210 (2003)
-
[Publications] 山岸順一: "コンテキストクラスタリング決定木を用いた話者適応の検討"日本音響学会2003年秋季研究発表会講演論文集. I. 213-214 (2003)
-
[Publications] 橘 誠: "HMM音声合成における異なる発話スタイルへの適応の検討"日本音響学会2003年秋季研究発表会講演論文集. I. 239-240 (2003)
-
[Publications] Junichi Yamagishi: "A training method of average voice model for HMM-based speech synthesis"IEICE Trans.Fundamentals of Electronics, Communications and Computer Sciences. E86-8,8. 1956-1963 (2003)
-
[Publications] Junichi Yamagishi: "Modeling of various speaking styles and emotions for HMM-based speech synthesis"Proc.the 8^<th> European Conference on Speech Communication and Technology, EUROSPEECH '03. III. 2461-2464 (2003)
-
[Publications] Junichi Yamagishi: "A training method for average voice model based on shared decision tree context clustering and speaker adaptive training"Proc.the 2003 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2003. I. 716-719 (2003)
-
[Publications] Junichi Yamagishi: "HMM-based expressive speech synthesis---Towards TTS with arbitrary speaking styles and emotions"Special Workshop in Maui, Lectures by Masters in Speech Processing. 18 (2004)
-
[Publications] 山岸 順一: "HMM音声合成における対数正規分布による状態継続長のモデル化の検討"日本音響学会2004年春季研究発表会講演論文集. I. 225-226 (2004)
-
[Publications] 橘 誠: "コンテキストクラスタリング決定木を用いた発話スタイル適応の評価"日本音響学会2004年春季研究発表会講演論文集. I. 257-258 (2004)
-
[Publications] 参納 大樹: "HMM音声合成における構造的MAPLRによる発話スタイルの多様化の検討"日本音響学会2004年春季研究発表会講演論文集. I. 255-256 (2004)
-
[Publications] 尾関 創: "多空間確率分布によるポーズの位置と長さの同時モデル化"日本音響学会2004年春季研究発表会講演論文集. I. 371-372 (2004)