2001 Fiscal Year Annual Research Report

平均声に基づく多様な声質・発話スタイルが可能な音声インタラクションシステム

Research Project

Project/Area Number	13878070
Research Category	Grant-in-Aid for Exploratory Research
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
Co-Investigator(Kenkyū-buntansha)	益子貴史東京工業大学, 大学院・総合理工学研究科, 助手 (90272715) 徳田恵一名古屋工業大学, 工学部, 助教授 (20217483)
Keywords	テキスト音声合成 / 平均声 / 隠れマルコフモデル(HMM) / 平均声HMM / HMM音声合成 / 話者適応 / 発話様式 / コンテキストクラスタリング
Research Abstract	本研究では,「平均声からの音声合成」という新たな枠組みを提案し,多様な話者の声質や発話様式を自動的に生成可能なマルチモーダルヒューマンコンピュータインタラクションを実現するための基礎を開拓することを目的として以下の項目について検討を行った。 1.音声の話者性を決定する要因にはスペクトル情報と韻律情報がある。そこで,複数話者の音声データから得られたスペクトル情報と韻律情報を隠れマルコフモデル(HMM)を用いて同時にモデル化することにより複数の話者の平均的な特徴を表す平均声モデルを学習し,このモデルに基づいて平均声を合成するシステムを提案した。平均声合成に関する種々の検討を行い、品質の良い平均声を生成するために必要なデータ量の指針を示すとともに,一話者あたりのデータ量が少ない場合でも品質の良い平均声を合成可能にする効率的な平均声モデル構築手法を提案した。さらに,話者適応訓練(SAT)法を導入した平均声モデル学習法を提案し,その有効性についても検討を行った。 2.任意の話者が発声した数文章程度の少量の音声データを用いて平均声モデルの話者適応を行い,得られたモデルに基づいて音声合成することにより,任意の話者の声質や韻律特徴を持った音声を生成する手法を提案した。ここでは,スペクトル情報と韻律情報を最尤線形回帰(MLLR)法に基づいて統一的にモデル適応を行うアルゴリズムを導出し,合成音声の客観評価および主観評価試験により,提案手法の有効性を示した。その結果.数文章程度の適応データがあれば,特定話者モデルに近い合成音声が生成可能であることを示した。 3.平均声からの音声合成システムのプラットホームであるHMM音声合成に用いられるコンテキストクラスタリングに関して,合成音の自然性に影響を与える変動要因の検討を行った。

Research Products
(8 results)

All Other

All Publications (8 results)

[Publications] 田村正統, 益子貴史, 徳田恵一, 小林隆夫: "HMM音声合成におけるMLLRを用いたピッチ・スペクトルの話者適応"電子情報通信学会技術研究報告. SP2001-11. 15-20 (2001)
[Publications] M.Tamura, T.Masuko, K.Tokuda, T.Kobayashi: "Text-to-speech synthesis with arbitrary speaker's voice from average voice"Proceeding of the 7th European Conference on Speech Communication and Technology, EUROSPEECH 2001. I. 345-348 (2001)
[Publications] 吉岡元貴, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成に用いるコンテキストの検討"日本音響学会2001年秋季研究発表会講演論文集. 3-2-5. 313-314 (2001)
[Publications] 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMMに基づく音声合成システムにおける音韻継続長の話者適応"日本音響学会2001年秋季研究発表会講演論文集. 3-2-7. 317-318 (2001)
[Publications] 吉岡元貴, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成における韻律の変動要因の検討"電子情報通信学会技術研究報告. SP2001-80. 51-56 (2001)
[Publications] 山岸順一, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成におけるコンテキストクラスタリング決定木の構築法の検討"日本音響学会2002年春季研究発表会講演論文集. 1-10-1(発表予定). (2002)
[Publications] 田村正統, 益子貴史, 徳田恵一, 小林隆夫: "HMM音声合成におけるSATを用いた平均声モデルの学習"日本音響学会2002年春季研究発表会講演論文集. 1-10-17(発表予定). (2002)
[Publications] 山岸順一, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成における平均声モデルの学習セットの検討"日本音響学会2002年春季研究発表会講演論文集. 3-2-10. 323-324 (2001)

2001 Fiscal Year Annual Research Report

平均声に基づく多様な声質・発話スタイルが可能な音声インタラクションシステム

Principal Investigator

小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

Research Products

[Publications] 田村正統, 益子貴史, 徳田恵一, 小林隆夫: "HMM音声合成におけるMLLRを用いたピッチ・スペクトルの話者適応"電子情報通信学会技術研究報告. SP2001-11. 15-20 (2001)

[Publications] M.Tamura, T.Masuko, K.Tokuda, T.Kobayashi: "Text-to-speech synthesis with arbitrary speaker's voice from average voice"Proceeding of the 7th European Conference on Speech Communication and Technology, EUROSPEECH 2001. I. 345-348 (2001)

[Publications] 吉岡元貴, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成に用いるコンテキストの検討"日本音響学会2001年秋季研究発表会講演論文集. 3-2-5. 313-314 (2001)

[Publications] 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMMに基づく音声合成システムにおける音韻継続長の話者適応"日本音響学会2001年秋季研究発表会講演論文集. 3-2-7. 317-318 (2001)

[Publications] 吉岡元貴, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成における韻律の変動要因の検討"電子情報通信学会技術研究報告. SP2001-80. 51-56 (2001)

[Publications] 山岸順一, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成におけるコンテキストクラスタリング決定木の構築法の検討"日本音響学会2002年春季研究発表会講演論文集. 1-10-1(発表予定). (2002)

[Publications] 田村正統, 益子貴史, 徳田恵一, 小林隆夫: "HMM音声合成におけるSATを用いた平均声モデルの学習"日本音響学会2002年春季研究発表会講演論文集. 1-10-17(発表予定). (2002)

[Publications] 山岸順一, 田村正統, 益子貴史, 小林隆夫, 徳田恵一: "HMM音声合成における平均声モデルの学習セットの検討"日本音響学会2002年春季研究発表会講演論文集. 3-2-10. 323-324 (2001)

小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)