2012 年度実施状況報告書

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

研究課題

研究課題/領域番号	23700195
研究機関	東京工業大学
研究代表者	能勢隆東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)
キーワード	HMM音声合成 / 対話音声合成 / 音声コーパス設計 / 音声パラメータ生成 / スタイル変換 / 歌声合成
研究概要	本研究は、あたかも人間が話しているかのような，より多くの感情・発話様式・発話意図が自然かつ多様に変化する次世代の高品質音声合成システムの実現を目的としており、平成２４年度は以下の項目について成果が得られた。（１）対話音声合成用コーパスの構築：豊かな感情表現・発話様式（スタイル）を伴う話し言葉調の音声の合成を目的とし、従来の音韻バランスのみを考慮したコーパス設計ではなく、アクセント、スタイル、文末表現などを総合的に考慮した音声コーパス構築法を提案し、その有効性を示した。（２）局所的系列内変動を考慮した音声パラメータ生成法の提案：従来の系列内変動を考慮した音声パラメータ生成法は発話毎のグローバルな分散情報のみを利用しており、スペクトルピークの過剰な強調により部分的に音質が劣化する場合があるという問題点があった。これに対し局所的な系列内変動をモデル化し、パラメータ生成時に利用することで、この問題を軽減し、より人間の音声に近い合成音声を生成できることを示した。（３）多様なスタイル音声生成のためのスタイル変換法の提案：従来の統計的音声合成法では目標話者の目標スタイルの音声をあらかじめ用意する必要があった。これに対し不特定話者スタイル変換法を新たに提案し、目標話者の読み上げ音声のみから多様なスタイルを伴う音声を生成できることを示した。（４）歌声合成におけるスタイル制御法の提案：歌声合成において、ユーザがスタイルとその度合いを直観的に変化させることができるように、重回帰隠れセミマルコフモデルに基づくスタイル制御法を歌声合成に適用し、その有効性を示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由小規模音声コーパスによる検討は既に行い有効性を示しているが、より大規模な、あるいは多様なコーパスの設計、評価が未だ実施できていないため。
今後の研究の推進方策	小規模音声コーパスに対する知見を利用して、より大規模な、あるいは多様なコーパスの設計、評価を実施する。
次年度の研究費の使用計画	未使用額の発生状況：小規模コーパスの設計のための理論構築、検討に予定より時間がかかったため、大規模コーパスを設計し、実際に音声収録を行いデータベースを作成する段階まで進むことができなかった。研究費の使用計画：未使用額も次年度の計画（より大規模な、あるいは多様なコーパスの設計を行うための音声データベース作成）のために使用する。

研究成果
(25件)

すべて 2013 2012 その他

すべて雑誌論文 (13件) (うち査読あり 3件) 学会発表 (12件) (うち招待講演 1件)

[雑誌論文] An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model2013
- 著者名/発表者名
  Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Speech Communication
  
  巻: Vol.55, No.2 ページ: 347-357
- DOI
  10.1016/j.specom.2012.09.003
- 査読あり
[雑誌論文] 統計モデルに基づく音声合成における話者・スタイルの多様化2013
- 著者名/発表者名
  能勢隆
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: Vol.112, No.422 ページ: 67-72
[雑誌論文] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013
- 著者名/発表者名
  金川裕紀, 能勢隆, 小林隆夫
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: Vol.112, No.422 ページ: 73-78
[雑誌論文] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013
- 著者名/発表者名
  能勢隆, 金本美沙, 郡山知樹, 小林隆夫
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: Vol.112, No.422 ページ: 79-84
[雑誌論文] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013
- 著者名/発表者名
  郡山知樹, 能勢隆, 小林隆夫
- 雑誌名
  
  日本音響学会2013年春季研究発表会講演論文集
  
  巻: vol.1 ページ: 271-272
[雑誌論文] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013
- 著者名/発表者名
  金川裕紀, 能勢隆, 小林隆夫
- 雑誌名
  
  日本音響学会2013年春季研究発表会講演論文集
  
  巻: vol.1 ページ: 295-296
[雑誌論文] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013
- 著者名/発表者名
  荒生侑介, 能勢隆, 小林隆夫
- 雑誌名
  
  日本音響学会2013年春季研究発表会講演論文集
  
  巻: vol.1 ページ: 499-500
[雑誌論文] Discontinuous observation HMM for prosodic-event-based F0 generation2012
- 著者名/発表者名
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc. 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
  
  巻: vol.1 ページ: 462-465
- 査読あり
[雑誌論文] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012
- 著者名/発表者名
  Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc. 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
  
  巻: vol.1 ページ: 1151-1154
- 査読あり
[雑誌論文] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012
- 著者名/発表者名
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- 雑誌名
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  巻: vol.1 ページ: 277-278
[雑誌論文] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012
- 著者名/発表者名
  能勢隆, 小林隆夫
- 雑誌名
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  巻: vol.1 ページ: 279-280
[雑誌論文] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討2012
- 著者名/発表者名
  金川裕紀, 能勢隆, 小林隆夫
- 雑誌名
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  巻: vol.1 ページ: 431-432
[雑誌論文] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用2012
- 著者名/発表者名
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- 雑誌名
  
  電子情報通信学会技術研究報告
  
  巻: Vol.112, No.81 ページ: 43-48
[学会発表] Discontinuous observation HMM for prosodic-event-based F0 generation
- 著者名/発表者名
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- 学会等名
  13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
- 発表場所
  Portland, USA
[学会発表] A speech parameter generation algorithm using local variance for HMM-based speech synthesis
- 著者名/発表者名
  Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
- 学会等名
  13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
- 発表場所
  Portland, USA
[学会発表] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討
- 著者名/発表者名
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- 学会等名
  日本音響学会2012年秋季研究発表会
- 発表場所
  信州大学
[学会発表] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討
- 著者名/発表者名
  能勢隆, 小林隆夫
- 学会等名
  日本音響学会2012年秋季研究発表会
- 発表場所
  信州大学
[学会発表] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討
- 著者名/発表者名
  金川裕紀, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2012年秋季研究発表会
- 発表場所
  信州大学
[学会発表] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用
- 著者名/発表者名
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- 学会等名
  音声研究会
- 発表場所
  東北工業大学
[学会発表] 統計モデルに基づく音声合成における話者・スタイルの多様化
- 著者名/発表者名
  能勢隆
- 学会等名
  音声研究会
- 発表場所
  同志社大学
- 招待講演
[学会発表] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討
- 著者名/発表者名
  金川裕紀, 能勢隆, 小林隆夫
- 学会等名
  音声研究会
- 発表場所
  同志社大学
[学会発表] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討
- 著者名/発表者名
  能勢隆, 金本美沙, 郡山知樹, 小林隆夫
- 学会等名
  音声研究会
- 発表場所
  同志社大学
[学会発表] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討
- 著者名/発表者名
  郡山知樹, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2013年春季研究発表会
- 発表場所
  東京工科大学
[学会発表] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価
- 著者名/発表者名
  金川裕紀, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2013年春季研究発表会
- 発表場所
  東京工科大学
[学会発表] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討
- 著者名/発表者名
  荒生侑介, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2013年春季研究発表会
- 発表場所
  東京工科大学

2012 年度 実施状況報告書

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

研究代表者

能勢 隆 東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model2013

著者名/発表者名

雑誌名

DOI

[雑誌論文] 統計モデルに基づく音声合成における話者・スタイルの多様化2013

著者名/発表者名

雑誌名

[雑誌論文] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013

著者名/発表者名

雑誌名

[雑誌論文] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013

著者名/発表者名

雑誌名

[雑誌論文] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013

著者名/発表者名

雑誌名

[雑誌論文] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013

著者名/発表者名

雑誌名

[雑誌論文] Discontinuous observation HMM for prosodic-event-based F0 generation2012

著者名/発表者名

雑誌名

[雑誌論文] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012

著者名/発表者名

雑誌名

[雑誌論文] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討2012

著者名/発表者名

雑誌名

[雑誌論文] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用2012

著者名/発表者名

雑誌名

[学会発表] Discontinuous observation HMM for prosodic-event-based F0 generation

著者名/発表者名

学会等名

発表場所

[学会発表] A speech parameter generation algorithm using local variance for HMM-based speech synthesis

著者名/発表者名

学会等名

発表場所

[学会発表] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討

著者名/発表者名

学会等名

発表場所

[学会発表] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討

著者名/発表者名

学会等名

発表場所

[学会発表] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討

著者名/発表者名

学会等名

発表場所

[学会発表] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用

著者名/発表者名

学会等名

発表場所

[学会発表] 統計モデルに基づく音声合成における話者・スタイルの多様化

著者名/発表者名

学会等名

発表場所

[学会発表] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討

著者名/発表者名

学会等名

発表場所

[学会発表] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討

2012 年度実施状況報告書

能勢隆東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)