2012 Fiscal Year Research-status Report

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

Research Project

Project/Area Number	23700195
Research Institution	Tokyo Institute of Technology
Principal Investigator	能勢隆東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)
Keywords	HMM音声合成 / 対話音声合成 / 音声コーパス設計 / 音声パラメータ生成 / スタイル変換 / 歌声合成
Research Abstract	本研究は、あたかも人間が話しているかのような，より多くの感情・発話様式・発話意図が自然かつ多様に変化する次世代の高品質音声合成システムの実現を目的としており、平成２４年度は以下の項目について成果が得られた。（１）対話音声合成用コーパスの構築：豊かな感情表現・発話様式（スタイル）を伴う話し言葉調の音声の合成を目的とし、従来の音韻バランスのみを考慮したコーパス設計ではなく、アクセント、スタイル、文末表現などを総合的に考慮した音声コーパス構築法を提案し、その有効性を示した。（２）局所的系列内変動を考慮した音声パラメータ生成法の提案：従来の系列内変動を考慮した音声パラメータ生成法は発話毎のグローバルな分散情報のみを利用しており、スペクトルピークの過剰な強調により部分的に音質が劣化する場合があるという問題点があった。これに対し局所的な系列内変動をモデル化し、パラメータ生成時に利用することで、この問題を軽減し、より人間の音声に近い合成音声を生成できることを示した。（３）多様なスタイル音声生成のためのスタイル変換法の提案：従来の統計的音声合成法では目標話者の目標スタイルの音声をあらかじめ用意する必要があった。これに対し不特定話者スタイル変換法を新たに提案し、目標話者の読み上げ音声のみから多様なスタイルを伴う音声を生成できることを示した。（４）歌声合成におけるスタイル制御法の提案：歌声合成において、ユーザがスタイルとその度合いを直観的に変化させることができるように、重回帰隠れセミマルコフモデルに基づくスタイル制御法を歌声合成に適用し、その有効性を示した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 小規模音声コーパスによる検討は既に行い有効性を示しているが、より大規模な、あるいは多様なコーパスの設計、評価が未だ実施できていないため。
Strategy for Future Research Activity	小規模音声コーパスに対する知見を利用して、より大規模な、あるいは多様なコーパスの設計、評価を実施する。
Expenditure Plans for the Next FY Research Funding	未使用額の発生状況：小規模コーパスの設計のための理論構築、検討に予定より時間がかかったため、大規模コーパスを設計し、実際に音声収録を行いデータベースを作成する段階まで進むことができなかった。研究費の使用計画：未使用額も次年度の計画（より大規模な、あるいは多様なコーパスの設計を行うための音声データベース作成）のために使用する。

Research Products
(25 results)

All 2013 2012 Other

All Journal Article (13 results) (of which Peer Reviewed: 3 results) Presentation (12 results) (of which Invited: 1 results)

[Journal Article] An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model2013
- Author(s)
  Takashi Nose, Takao Kobayashi
- Journal Title
  
  Speech Communication
  
  Volume: Vol.55, No.2 Pages: 347-357
- DOI
  10.1016/j.specom.2012.09.003
- Peer Reviewed
[Journal Article] 統計モデルに基づく音声合成における話者・スタイルの多様化2013
- Author(s)
  能勢隆
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: Vol.112, No.422 Pages: 67-72
[Journal Article] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: Vol.112, No.422 Pages: 73-78
[Journal Article] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013
- Author(s)
  能勢隆, 金本美沙, 郡山知樹, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: Vol.112, No.422 Pages: 79-84
[Journal Article] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2013年春季研究発表会講演論文集
  
  Volume: vol.1 Pages: 271-272
[Journal Article] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2013年春季研究発表会講演論文集
  
  Volume: vol.1 Pages: 295-296
[Journal Article] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013
- Author(s)
  荒生侑介, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2013年春季研究発表会講演論文集
  
  Volume: vol.1 Pages: 499-500
[Journal Article] Discontinuous observation HMM for prosodic-event-based F0 generation2012
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proc. 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
  
  Volume: vol.1 Pages: 462-465
- Peer Reviewed
[Journal Article] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012
- Author(s)
  Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proc. 13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
  
  Volume: vol.1 Pages: 1151-1154
- Peer Reviewed
[Journal Article] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012
- Author(s)
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- Journal Title
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 277-278
[Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012
- Author(s)
  能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 279-280
[Journal Article] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討2012
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2012年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 431-432
[Journal Article] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用2012
- Author(s)
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: Vol.112, No.81 Pages: 43-48
[Presentation] Discontinuous observation HMM for prosodic-event-based F0 generation
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Organizer
  13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
- Place of Presentation
  Portland, USA
[Presentation] A speech parameter generation algorithm using local variance for HMM-based speech synthesis
- Author(s)
  Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
- Organizer
  13th Annual Conference of the International Speech Communication Association, INTERSPEECH 2012
- Place of Presentation
  Portland, USA
[Presentation] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討
- Author(s)
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- Organizer
  日本音響学会2012年秋季研究発表会
- Place of Presentation
  信州大学
[Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討
- Author(s)
  能勢隆, 小林隆夫
- Organizer
  日本音響学会2012年秋季研究発表会
- Place of Presentation
  信州大学
[Presentation] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Organizer
  日本音響学会2012年秋季研究発表会
- Place of Presentation
  信州大学
[Presentation] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用
- Author(s)
  能勢隆, ワータヤー・チュンウィジター, 小林隆夫
- Organizer
  音声研究会
- Place of Presentation
  東北工業大学
[Presentation] 統計モデルに基づく音声合成における話者・スタイルの多様化
- Author(s)
  能勢隆
- Organizer
  音声研究会
- Place of Presentation
  同志社大学
- Invited
[Presentation] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Organizer
  音声研究会
- Place of Presentation
  同志社大学
[Presentation] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討
- Author(s)
  能勢隆, 金本美沙, 郡山知樹, 小林隆夫
- Organizer
  音声研究会
- Place of Presentation
  同志社大学
[Presentation] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学
[Presentation] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学
[Presentation] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討
- Author(s)
  荒生侑介, 能勢隆, 小林隆夫
- Organizer
  日本音響学会2013年春季研究発表会
- Place of Presentation
  東京工科大学

2012 Fiscal Year Research-status Report

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

Principal Investigator

能勢 隆 東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)

Current Status of Research Progress

Reason

Research Products

[Journal Article] An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model2013

Author(s)

Journal Title

DOI

[Journal Article] 統計モデルに基づく音声合成における話者・スタイルの多様化2013

Author(s)

Journal Title

[Journal Article] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討2013

Author(s)

Journal Title

[Journal Article] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討2013

Author(s)

Journal Title

[Journal Article] 音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討2013

Author(s)

Journal Title

[Journal Article] HMM音声合成における話者正規化学習を用いたスタイル変換法の評価2013

Author(s)

Journal Title

[Journal Article] 対話音声合成のための音韻・韻律コンテキストを考慮した音声コーパス構築法の検討2013

Author(s)

Journal Title

[Journal Article] Discontinuous observation HMM for prosodic-event-based F0 generation2012

Author(s)

Journal Title

[Journal Article] A speech parameter generation algorithm using local variance for HMM-based speech synthesis2012

Author(s)

Journal Title

[Journal Article] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討2012

Author(s)

Journal Title

[Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討2012

Author(s)

Journal Title

[Journal Article] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討2012

Author(s)

Journal Title

[Journal Article] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用2012

Author(s)

Journal Title

[Presentation] Discontinuous observation HMM for prosodic-event-based F0 generation

Author(s)

Organizer

Place of Presentation

[Presentation] A speech parameter generation algorithm using local variance for HMM-based speech synthesis

Author(s)

Organizer

Place of Presentation

[Presentation] HMM音声合成のための局所的系列内変動を考慮したパラメータ生成の検討

Author(s)

Organizer

Place of Presentation

[Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の検討

Author(s)

Organizer

Place of Presentation

[Presentation] HMM音声合成における不特定話者スタイル変換のための話者正規化学習法の検討

Author(s)

Organizer

Place of Presentation

[Presentation] HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用

Author(s)

Organizer

Place of Presentation

[Presentation] 統計モデルに基づく音声合成における話者・スタイルの多様化

Author(s)

Organizer

Place of Presentation

[Presentation] 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討

Author(s)

Organizer

Place of Presentation

[Presentation] 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討

能勢隆東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)