2012 年度実績報告書

ロバスト音声合成の深化と多言語音声コミュニケーションへの展開

研究課題

研究課題/領域番号	24300071
研究種目	基盤研究(B)
研究機関	東京工業大学
研究代表者	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
研究分担者	能勢隆東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	テキスト音声合成 / HMM音声合成 / 自然発話音声 / 話者正規化学習 / 韻律イベント / ガウス過程回帰 / 共有決定木 / クロスリンガル音声合成
研究概要	ロバスト音声合成技術の深化・発展を目指し、基本技術に関する理論的検討、既存提案手法の高度化と新手法の提案を行う共に、ロバスト音声合成の多言語への応用に関してタイ語、中国語、英語、インドネシア語について検討を行い、以下の成果が得られた。表現性にロバストな音声合成法として、任意の目標話者の読上げ調スタイル以外の所望のスタイル音声を合成することを目的として、話者正規化学習を導入した新たな手法を提案した。提案手法は目標話者の目標スタイル音声が必要ないことから、時間とコストのかかるモデル学習用音声の収録が不要となり、多様な話者性による表現豊かな音声合成がより容易にできる特徴がある。また、合成音声品質の改善を目的として、ノンパラメトリックモデルに基づく新たな音韻モデル化手法を着想し、基礎的な検討を始めた。自発音声・会話音声の合成に関しては、多様な韻律特徴のモデル化を可能とするために、基本周波数(FO)の無声音部分における観測値の不連続性を考慮し、従来の音韻単位ではなく韻律イベントを単位とする新たな統計的FOモデル化手法を提案し、実際の自発音声合成に対してその有効性を示した。また、既存の自発音声コーパスに加えて、インターネットのツィート文を対象とした音韻・韻律を考慮した音声コーパス構築法を提案した。音声資源が乏しい言語の音声合成に関しては、FO量子化コンテキストを導入したモデル化手法によるタイ語音声合成の検討を進めると共に、インドネシア語の音声合成に向けた予備的な検討として、モデル化に必要となるコンテキストの評価を行った。多言語の音声合成へのアプローチとして、平均声方式における共有決定木手法を言語の多様性に対して適用した新たなクロスリンガル音声合成手法を提案し、日本語・英語及び日本語・中国語のクロスリンガル音声合成について評価を行い、提案手法の有効性を確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究を4項目に分けて実施した結果、それぞれ当初計画した通りに研究が進み、成果が得られた他、ロバスト音声合成に関して新たな手法の着想とその検討を始めることができたことから、概ね順調に進んでいると判断した。
今後の研究の推進方策	初年度の研究は概ね計画通り進んでおり、計画の特段の変更は不要なことから、当初の計画に沿ってこのまま研究を進めていく。
次年度の研究費の使用計画	音声データ収録を発注予定であったが、当初構想した発話文章数を収録すると想定した金額を超過することが判明し、発話内容や収録文章数の再検討が必要になったことから、収録を次年度に延期した。研究目的達成のために必要な発話内容を客観的・主観的観点から厳選した上で、収録を行う。

研究成果
(25件)

すべて 2013 2012

すべて雑誌論文 (13件) (うち査読あり 3件) 学会発表 (12件)

[雑誌論文] An intuitive style control technique in HMM-based expressive speechsynthesis using subjective style intensity and multiple-regression globalvariance model2013
- 著者名/発表者名
  Takashi Nose
- 雑誌名
  
  Speech Communication
  
  巻: 55 ページ: 347-357
- DOI
  10.1016/j.specom.2012.09.003
- 査読あり
[雑誌論文] 統計モデルに基づく音声合成における話者・スタイルの多様化2013
- 著者名/発表者名
  能勢隆
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: 112 SP2012-109(招待講演) ページ: 67-72
[雑誌論文] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013
- 著者名/発表者名
  金川裕紀
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: 112 SP2012-110 ページ: 79-84
[雑誌論文] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013
- 著者名/発表者名
  能勢隆
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: CD-ROM ページ: 271-272
[雑誌論文] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検2013
- 著者名/発表者名
  郡山知樹
- 雑誌名
  
  日本音響学会2013年春季研究発表会講演論文集
  
  巻: CD-ROM ページ: 271-272
[雑誌論文] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013
- 著者名/発表者名
  金川裕紀
- 雑誌名
  
  日本音響学会2013年春季研究発表講演論文集
  
  巻: CD-ROM ページ: 295-296
[雑誌論文] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013
- 著者名/発表者名
  荒生侑介
- 雑誌名
  
  日本音響学会2013年春季研究発表講演論文集
  
  巻: CD-ROM ページ: 499-500
[雑誌論文] Discontinuous observation HMM for prosodic-event-based FO generation2012
- 著者名/発表者名
  Tomoki Koriyama
- 雑誌名
  
  Proceedings of the 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
  
  巻: (CD-ROM)
- 査読あり
[雑誌論文] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012
- 著者名/発表者名
  Vataya Chunwijitra
- 雑誌名
  
  Proceedings of the 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
  
  巻: (CD-ROM)
- 査読あり
[雑誌論文] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012
- 著者名/発表者名
  能勢隆
- 雑誌名
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  巻: (CD-ROM) ページ: 277-278
[雑誌論文] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012
- 著者名/発表者名
  能勢隆
- 雑誌名
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  巻: (CD-ROM) ページ: 279-280
[雑誌論文] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の2012
- 著者名/発表者名
  金川裕紀
- 雑誌名
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  巻: (CD-ROM) ページ: 431-432
[雑誌論文] HMM音声合成におけるスペクトル特微量の局所変動のモデル化とパラメータ2012
- 著者名/発表者名
  能勢隆
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: 112 SP2012-79 ページ: 43-48
[学会発表] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013
- 著者名/発表者名
  荒生侑介
- 学会等名
  日本音響学会2013年春季研究発表会
- 発表場所
  東京工科大学, 東京都八王子市
- 年月日
  2013-03-15
[学会発表] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013
- 著者名/発表者名
  郡山知樹
- 学会等名
  日本音響学会2013年春季研究発表会
- 発表場所
  東京工科大学, 東京都八王子市
- 年月日
  2013-03-13
[学会発表] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013
- 著者名/発表者名
  金川裕紀
- 学会等名
  日本音響学会2013年春季研究発表会
- 発表場所
  東京工科大学, 東京都八王子市
- 年月日
  2013-03-13
[学会発表] 統計モデルに基づく音声合成における話者・スタイルの多様化2013
- 著者名/発表者名
  能勢隆
- 学会等名
  2013年1月度音声研究会
- 発表場所
  同志社大学, 京都府京田辺市(招待講演)
- 年月日
  2013-01-31
[学会発表] 任意話者の多様なスタイル生成のための話者正規化2013
- 著者名/発表者名
  金川裕紀
- 学会等名
  2013年1月度音声研究会
- 発表場所
  同志社大学, 京都府京田辺市
- 年月日
  2013-01-31
[学会発表] 多様な歌声合成のための重回帰HSMMIに基づくスタイル制御法の検討2013
- 著者名/発表者名
  能勢隆
- 学会等名
  2013年1月度音声研究会
- 発表場所
  同志社大学, 京都府京田辺市
- 年月日
  2013-01-31
[学会発表] HMM音声合成におけるスペクトル特微量の局所変動のモデル化とパラメータ2012
- 著者名/発表者名
  能勢隆
- 学会等名
  2012年11月度音声研究会
- 発表場所
  東北工業大学, 宮城県仙台市
- 年月日
  2012-11-08
[学会発表] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012
- 著者名/発表者名
  能勢隆
- 学会等名
  日本音響学会2012年秋季研究発表会
- 発表場所
  信州大学, 長野県長野市
- 年月日
  2012-09-20
[学会発表] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012
- 著者名/発表者名
  能勢隆
- 学会等名
  日本音響学会2012年秋季研究発表会
- 発表場所
  信州大学,長野県長野市
- 年月日
  2012-09-20
[学会発表] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の2012
- 著者名/発表者名
  金川裕紀
- 学会等名
  日本音響学会2012年秋季研究発表会
- 発表場所
  信州大学,長野県長野市
- 年月日
  2012-09-20
[学会発表] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012
- 著者名/発表者名
  Vataya Chunwijitra
- 学会等名
  13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
- 発表場所
  Portland, USA
- 年月日
  2012-09-11
[学会発表] Discontinuous observation HMM for prosodic-e vent-based FO generation2012
- 著者名/発表者名
  Tomoki Koriyama
- 学会等名
  13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
- 発表場所
  Portland, USA
- 年月日
  2012-09-10

2012 年度 実績報告書

ロバスト音声合成の深化と多言語音声コミュニケーションへの展開

研究代表者

小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] An intuitive style control technique in HMM-based expressive speechsynthesis using subjective style intensity and multiple-regression globalvariance model2013

著者名/発表者名

雑誌名

DOI

[雑誌論文] 統計モデルに基づく音声合成における話者・スタイルの多様化2013

著者名/発表者名

雑誌名

[雑誌論文] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013

著者名/発表者名

雑誌名

[雑誌論文] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013

著者名/発表者名

雑誌名

[雑誌論文] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検2013

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013

著者名/発表者名

雑誌名

[雑誌論文] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013

著者名/発表者名

雑誌名

[雑誌論文] Discontinuous observation HMM for prosodic-event-based FO generation2012

著者名/発表者名

雑誌名

[雑誌論文] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012

著者名/発表者名

雑誌名

[雑誌論文] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の2012

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成におけるスペクトル特微量の局所変動のモデル化とパラメータ2012

著者名/発表者名

雑誌名

[学会発表] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計モデルに基づく音声合成における話者・スタイルの多様化2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 任意話者の多様なスタイル生成のための話者正規化2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 多様な歌声合成のための重回帰HSMMIに基づくスタイル制御法の検討2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMM音声合成におけるスペクトル特微量の局所変動のモデル化とパラメータ2012

著者名/発表者名

学会等名

2012 年度実績報告書

小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)