2013 Fiscal Year Annual Research Report

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

Research Project

Project/Area Number	23700195
Research Institution	Tohoku University
Principal Investigator	能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)
Keywords	音声合成 / 統計モデル / 隠れマルコフモデル / 感情音声 / コーパスデザイン / 話し言葉音声合成
Research Abstract	本研究課題は、人間に近いより自然で多様な音声合成システムの実現を目指すものであり、研究期間全体を通じて以下の７項目について研究成果が得られた。（１）対話音声合成のための効率的なコーパスデザイン法の確立▼アクセント、スタイル、文末表現などを総合的に考慮した音声コーパス構築法を提案し、その有効性を示した。（２）ユーザの主観に基づいた感情音声合成▼ユーザによる主観的な感情の度合を定量化してモデル学習に組み込む新たな枠組を提案し、その有効性を示した。（３）話し言葉音声合成のための韻律モデルの改善▼韻律の変動要因としてToBIラベルに基づく詳細な情報を導入した韻律単位HMMを提案し、その有効性を示した。（４）教師なし学習に基づく強調音声の合成▼強調表現を含む音声を自動的に生成するため、声の高さを表す基本周波数(F0)に着目し、F0生成を利用した強調表現の自動ラベリングを実現した。（５）多様なスタイル音声生成のためのスタイル変換法の提案▼複数の話者の通常音声と感情音声の間で変換行列を推定しこれを目標話者の通常音声のモデルに適用することで目標話者の読み上げ音声のみから多様なスタイルを伴う音声を生成できることを示した。（６）歌声合成におけるスタイル制御法の提案▼スタイルとその度合いを直観的に変化させることができる重回帰隠れセミマルコフモデルに基づく歌唱スタイル制御法を提案した。（７）共有決定木に基づくクロスリンガル音声合成▼言語の多様化手法として、目標話者の母国語音声のみからその話者の外国語音声を合成する手法を提案した。

Research Products
(13 results)

All 2014 2013 Other

All Journal Article (7 results) (of which Peer Reviewed: 4 results) Presentation (6 results)

[Journal Article] Prosodic variation enhancement using unsupervised context labeling for HMM-based expressive speech synthesis2014
- Author(s)
  Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka
- Journal Title
  
  Speech Communication
  
  Volume: Vol.57 Pages: 144-154
- DOI
  10.1016/j.specom.2013.09.014
- Peer Reviewed
[Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価2014
- Author(s)
  長濱大樹, 能勢隆, 郡山知樹, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: vol.1 Pages: 413-414
[Journal Article] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価2014
- Author(s)
  荒生侑介, 能勢隆, 郡山知樹, 篠崎隆宏, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: vol.1 Pages: 405-406
[Journal Article] Speaker-independent style conversion for HMM-based expressive speech synthesis2013
- Author(s)
  Hiroki Kanagawa, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proc. 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013
  
  Volume: vol.1 Pages: 7864-7867
- Peer Reviewed
[Journal Article] HMM-based expressive speech synthesis based on phrase-level F0 context labeling2013
- Author(s)
  Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka
- Journal Title
  
  Proc. 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013
  
  Volume: vol.1 Pages: 7859-7863
- Peer Reviewed
[Journal Article] A style control technique for singing voice synthesis based on multiple-regression HSMM2013
- Author(s)
  Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi
- Journal Title
  
  Proc. 14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
  
  Volume: vol.1 Pages: 378-382
- Peer Reviewed
[Journal Article] 複数ドメインコーパスからの文選択に基づくキャラクター音声合成の検討2013
- Author(s)
  荒生侑介, 能勢隆, 篠崎隆宏, 小林隆夫
- Journal Title
  
  日本音響学会2013年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 351-352
[Presentation] Speaker-independent style conversion for HMM-based expressive speech synthesis
- Author(s)
  Hiroki Kanagawa
- Organizer
  2013 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013
- Place of Presentation
  Vancouver, Canada
[Presentation] HMM-based expressive speech synthesis based on phrase-level F0 context labeling
- Author(s)
  Yu Maeno
- Organizer
  2013 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013
- Place of Presentation
  Vancouver, Canada
[Presentation] A style control technique for singing voice synthesis based on multiple-regression HSMM
- Author(s)
  Takashi Nose
- Organizer
  14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
- Place of Presentation
  Lyon, France
[Presentation] 複数ドメインコーパスからの文選択に基づくキャラクター音声合成の検討
- Author(s)
  荒生侑介
- Organizer
  日本音響学会2013年秋季研究発表会
- Place of Presentation
  豊橋技術科学大学
[Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価
- Author(s)
  長濱大樹
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学
[Presentation] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価
- Author(s)
  荒生侑介
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学

2013 Fiscal Year Annual Research Report

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

Principal Investigator

能勢 隆 東北大学, 工学(系)研究科(研究院), 講師 (90550591)

Research Products

[Journal Article] Prosodic variation enhancement using unsupervised context labeling for HMM-based expressive speech synthesis2014

Author(s)

Journal Title

DOI

[Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価2014

Author(s)

Journal Title

[Journal Article] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価2014

Author(s)

Journal Title

[Journal Article] Speaker-independent style conversion for HMM-based expressive speech synthesis2013

Author(s)

Journal Title

[Journal Article] HMM-based expressive speech synthesis based on phrase-level F0 context labeling2013

Author(s)

Journal Title

[Journal Article] A style control technique for singing voice synthesis based on multiple-regression HSMM2013

Author(s)

Journal Title

[Journal Article] 複数ドメインコーパスからの文選択に基づくキャラクター音声合成の検討2013

Author(s)

Journal Title

[Presentation] Speaker-independent style conversion for HMM-based expressive speech synthesis

Author(s)

Organizer

Place of Presentation

[Presentation] HMM-based expressive speech synthesis based on phrase-level F0 context labeling

Author(s)

Organizer

Place of Presentation

[Presentation] A style control technique for singing voice synthesis based on multiple-regression HSMM

Author(s)

Organizer

Place of Presentation

[Presentation] 複数ドメインコーパスからの文選択に基づくキャラクター音声合成の検討

Author(s)

Organizer

Place of Presentation

[Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価

Author(s)

Organizer

Place of Presentation

[Presentation] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価

Author(s)

Organizer

Place of Presentation

能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)