• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2003 年度 実績報告書

平均声に基づく多様な声質・発話スタイルが可能な音声合成の実現

研究課題

研究課題/領域番号 15300055
研究種目

基盤研究(B)

研究機関東京工業大学

研究代表者

小林 隆夫  東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

研究分担者 住田 一男  株式会社東芝, 研究開発センター・知識メディアラボラトリー, 室長(研究職)
益子 貴史  東京工業大学, 大学院・総合理工学研究科, 助手 (90272715)
キーワード音声合成 / テキスト音声合成 / HMM音声合成 / 平均声 / 発話スタイル / 感情音声 / スタイル補間 / スタイル適応
研究概要

本研究では「平均声からの音声合成」という新たな音声合成の枠組みを発展させ,任意の話者の多様な声質や発話様式など,各個人が持っている話し方の個性を自由に表現でき,気の利いた音声インタラクションが実現可能な音声合成システムを開発することを目的とし,研究の初年度として,平均声モデルから目標とする任意の話者モデルへの適応手法の確立を重点において以下の検討を行った。
1.平均声モデルから任意の話者モデルへの適応手法として,構造的最大事後確率線形回帰(SMAPLR)に基づくモデル適応手法を提案し,その有効性を示した。また,平均声モデルのモデル化手法の基本として,対数正規分布に基づく継続時間長のモデル化と多空間確率分布に基づくポーズのモデル化と生成手法について基礎的な検討を行った。
2.多様な感情や発話様式を含む音声合成に向けて,「丁寧/ぞんざい」,「楽しげ/悲嘆」,「安心/不安」,「速く/ゆっくり」,「親しげ/嫌悪」というスタイルの音声を収録した。収録音声は,次年度以降にラベル付けを行いデータベース化する予定である。
3.多様な感情・発話様式を含む音声のモデル化手法として,HMM音声合成におけるスタイル依存モデルとスタイル混合モデルの二つのモデル化手法を提案するとともに,多様なスタイル音声の生成手法としてスタイル補間手法とスタイル適応手法を提案した。そして「丁寧」,「ぞんざい」,「楽しげ」,「悲嘆」の各スタイルについて,スタイルのモデル化と多様なスタイルでの音声合成実験・評価を行い,提案手法の有効性を示した。

  • 研究成果

    (14件)

すべて その他

すべて 文献書誌 (14件)

  • [文献書誌] 山岸順一: "HMM音声合成におけるコンテキストクラスタリング決定木を用いた話者適応の検討"電子情報通信学会技術研究報告. 103・264. 31-36 (2003)

  • [文献書誌] 橘 誠: "HMM音声合成におけるモデル補間・適応による発話スタイルの多様化の検討"電子情報通信学会技術研究報告. 103・264. 37-42 (2003)

  • [文献書誌] 広畑 誠: "声道長正規化を用いた平均声モデル学習の検討"電子情報通信学会技術研究報告. 103・27. 69-75 (2003)

  • [文献書誌] 益子貴史: "HMMからの尤度最大基準にもとづく条件つきパラメータ生成の検討"日本音響学会2003年秋季研究発表会講演論文集. I. 209-210 (2003)

  • [文献書誌] 山岸順一: "コンテキストクラスタリング決定木を用いた話者適応の検討"日本音響学会2003年秋季研究発表会講演論文集. I. 213-214 (2003)

  • [文献書誌] 橘 誠: "HMM音声合成における異なる発話スタイルへの適応の検討"日本音響学会2003年秋季研究発表会講演論文集. I. 239-240 (2003)

  • [文献書誌] Junichi Yamagishi: "A training method of average voice model for HMM-based speech synthesis"IEICE Trans.Fundamentals of Electronics, Communications and Computer Sciences. E86-8,8. 1956-1963 (2003)

  • [文献書誌] Junichi Yamagishi: "Modeling of various speaking styles and emotions for HMM-based speech synthesis"Proc.the 8^<th> European Conference on Speech Communication and Technology, EUROSPEECH '03. III. 2461-2464 (2003)

  • [文献書誌] Junichi Yamagishi: "A training method for average voice model based on shared decision tree context clustering and speaker adaptive training"Proc.the 2003 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2003. I. 716-719 (2003)

  • [文献書誌] Junichi Yamagishi: "HMM-based expressive speech synthesis---Towards TTS with arbitrary speaking styles and emotions"Special Workshop in Maui, Lectures by Masters in Speech Processing. 18 (2004)

  • [文献書誌] 山岸 順一: "HMM音声合成における対数正規分布による状態継続長のモデル化の検討"日本音響学会2004年春季研究発表会講演論文集. I. 225-226 (2004)

  • [文献書誌] 橘 誠: "コンテキストクラスタリング決定木を用いた発話スタイル適応の評価"日本音響学会2004年春季研究発表会講演論文集. I. 257-258 (2004)

  • [文献書誌] 参納 大樹: "HMM音声合成における構造的MAPLRによる発話スタイルの多様化の検討"日本音響学会2004年春季研究発表会講演論文集. I. 255-256 (2004)

  • [文献書誌] 尾関 創: "多空間確率分布によるポーズの位置と長さの同時モデル化"日本音響学会2004年春季研究発表会講演論文集. I. 371-372 (2004)

URL: 

公開日: 2005-04-18   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi