2013 Fiscal Year Annual Research Report

ロバスト音声合成の深化と多言語音声コミュニケーションへの展開

Research Project

Project/Area Number	24300071
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)
Co-Investigator(Kenkyū-buntansha)	能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	テキスト音声合成 / HMM音声合成 / 自然発話音声 / ガウス過程回帰 / トーン（声調） / クロスリンガル音声合成 / 共有決定木 / 国際情報交換（インドネシア）
Research Abstract	ロバスト音声合成技術の深化・発展を目指し、初年度に続き基本技術に関する理論的検討、提案手法の高度化、新たな手法の提案を行う共に、ロバスト音声合成の多言語への応用に関してタイ語、インドネシア語、英語について検討を行い、以下の成果が得られた。１．表現性にロバストな音声合成法：学習データ量の変化に対してロバストなモデル化手法として、新たな音素コンテキストセットの利用と基本周波数に関する正規化学習の導入を提案し、評価実験を通してその有効性を示した。また、統計的音声合成手法の新たなアプローチであるガウス過程回帰に基づく音声合成手法を提案し、基礎的な検討を行った結果、スペクトルのモデル化において従来の隠れマルコフモデルに基づく手法に比べて高い性能が得られる可能性を示した。２．自発音声・会話音声の合成：初年度で提案した音韻・韻律コンテキストバランスを考慮した音声コーパス構築手法に基づいて、インターネットのツィート文等，自発性の高い音声データベース整備とそれを学習データに用いたモデル化を行い、複数ドメインコーパスを用いるモデル化手法の有効性を明らかにした。３．音声資源が乏しい言語の音声合成：タイ語音声合成において、合成音声の自然性に大きな影響を及ぼすトーン（声調）の再現性向上に着目し、ストレスの有無を新たにコンテキストとして考慮する手法を提案してその有効性を示した。また、インドネシア語音声合成に対しては、男女各1名の音声データ収録を行い、プロトタイプシステム実現に向けた検討を進めた。４．多言語の音声合成：初年度で提案した共有決定木を利用した話者適応に基づくクロスリンガル音声合成手法について、英語・日本語を対象としたシステムの詳細な検討を行った。その結果、従来法である状態マッピングに基づいた手法に比べてより高い客観性能を示すことを示した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究の目的は、ロバスト音声合成技術を深化・発展させ、利用可能な音声資源が乏しい条件下においても、個性や多様性を表出可能で自然性の高い韻律を持つ音声を合成するための技術を創出し、確立した技術を東南アジア諸国の音声資源が十分でない言語を含む多言語音声合成に応用したユニバーサルコミュニケーション実現に資することにあった。この観点から研究を４項目に分けて実施した結果、それぞれの項目毎に当初の計画通りに研究が進み、期待した成果が得られたことに加え、ロバスト音声合成に関して新たな統計的音声合成のフレームワークの提案につながり、新たな検討を進めることができたことから、概ね順調に進んでいると判断した。
Strategy for Future Research Activity	第二年度迄の研究は概ね計画通り進んでおり、計画の特段の変更は不要なことから、当初の計画に沿ってこのまま研究を進めていく。
Expenditure Plans for the Next FY Research Funding	招聘を予定していたスラバヤ工科大の研究協力者が別予算で研究室に滞在し研究を行ったことと、研究分担者が年度半ばで研究機関を異動した関係で、必要な研究基盤整備のための金額配分が当初の予定と異なってしまったため。次年度が最終年度であることから、研究成果の公開のための費用と第二年度までに未完了の研究基盤整備の費用として使用する予定。

Research Products
(32 results)

All 2014 2013

All Journal Article (16 results) (of which Peer Reviewed: 4 results) Presentation (16 results) (of which Invited: 1 results)

[Journal Article] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告　音声
  
  Volume: 113, SP2013-99 Pages: 19-24
[Journal Article] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価2014
- Author(s)
  荒生侑介, 能勢隆, 郡山知樹, 篠崎隆宏, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 405-406
[Journal Article] HMM音声合成のための音節出現頻度にロバストな音素セットの検討2014
- Author(s)
  舘野英樹, 能勢隆, 郡山知樹, 篠崎隆宏, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 409-410
[Journal Article] HMM音声合成における正規化学習を用いたアクセント誤り削減の検討2014
- Author(s)
  大西浩之, 能勢隆, 郡山知樹, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 411-412
[Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価2014
- Author(s)
  長濱大樹, 能勢隆, 郡山知樹, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 413-414
[Journal Article] 音響モデルと言語モデルを利用したアクセント型・アクセント句境界の同時推定2014
- Author(s)
  鈴木啓史, 郡山知樹, 能勢隆, 篠崎隆宏, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 441-442
[Journal Article] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2014年春季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 355-356
[Journal Article] Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis2013
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proceedings of 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013
  
  Volume: ICASSP 2013 Pages: 8007-8011
- DOI
  10.1109/ICASSP.2013.6639224
- Peer Reviewed
[Journal Article] Speaker-independent style conversion for HMM-based expressive speech synthesis2013
- Author(s)
  Hiroki Kanagawa, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proceedings of 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013
  
  Volume: ICASSP 2013 Pages: 7864-7868
- DOI
  10.1109/ICASSP.2013.6639195
- Peer Reviewed
[Journal Article] Statistical nonparametric speech synthesis using sparse Gaussian processes2013
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proceedings of the 14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
  
  Volume: INTERSPEECH 2013 Pages: 1072-1076
- Peer Reviewed
[Journal Article] A style control technique for singing voice synthesis based on multiple-regression HSMM2013
- Author(s)
  Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi
- Journal Title
  
  Proceedings of the 14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
  
  Volume: INTERSPEECH 2013 Pages: 378-382
- Peer Reviewed
[Journal Article] 複数ドメインコーパスからの文選択に基づくキャラクター音声合成の検討2013
- Author(s)
  荒生侑介, 能勢隆, 篠崎隆宏, 小林隆夫
- Journal Title
  
  日本音響学会2013年秋季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 351-352
[Journal Article] GMMに基づく声質変換のためのMDL基準による混合数の自動決定2013
- Author(s)
  小林友哉, 能勢隆, 篠崎隆宏, 小林隆夫
- Journal Title
  
  日本音響学会2013年秋季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 341-342
[Journal Article] スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成2013
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2013年秋季研究発表会講演論文集
  
  Volume: CD-ROM Pages: 311-312
[Journal Article] 言語モデルと音響モデルを利用したアクセント境界の自動推定2013
- Author(s)
  鈴木啓史, 郡山知樹, 能勢隆, 篠崎隆宏, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告　音声
  
  Volume: 113, SP2013-89 Pages: 97-102
[Journal Article] 多様な音声合成に向けた取組みと課題2013
- Author(s)
  小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告　音声
  
  Volume: 113, SP2013-93 Pages: 119-122
[Presentation] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価2014
- Author(s)
  荒生　侑介
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学理工学部駿河台キャンパス（東京）
- Year and Date
  20140310-20140312
[Presentation] HMM音声合成のための音節出現頻度にロバストな音素セットの検討2014
- Author(s)
  舘野　英樹
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学理工学部駿河台キャンパス（東京）
- Year and Date
  20140310-20140312
[Presentation] HMM音声合成における正規化学習を用いたアクセント誤り削減の検討2014
- Author(s)
  大西　浩之
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学理工学部駿河台キャンパス（東京）
- Year and Date
  20140310-20140312
[Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価2014
- Author(s)
  長濱　大樹
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学理工学部駿河台キャンパス（東京）
- Year and Date
  20140310-20140312
[Presentation] 音響モデルと言語モデルを利用したアクセント型・アクセント句境界の同時推定2014
- Author(s)
  郡山　知樹
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学理工学部駿河台キャンパス（東京）
- Year and Date
  20140310-20140312
[Presentation] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014
- Author(s)
  郡山　知樹
- Organizer
  日本音響学会2014年春季研究発表会
- Place of Presentation
  日本大学理工学部駿河台キャンパス（東京）
- Year and Date
  20140310-20140312
[Presentation] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014
- Author(s)
  郡山　知樹
- Organizer
  電子情報通信学会・日本音響学会　音声研究会
- Place of Presentation
  名城大学天白キャンパス（愛知）
- Year and Date
  20140123-20140124
[Presentation] 言語モデルと音響モデルを利用したアクセント境界の自動推定2013
- Author(s)
  鈴木　啓史
- Organizer
  第15回音声言語シンポジウム
- Place of Presentation
  筑波大学東京キャンパス文京校舎（東京）
- Year and Date
  20131219-20131220
[Presentation] 多様な音声合成に向けた取組みと課題2013
- Author(s)
  小林　隆夫
- Organizer
  第15回音声言語シンポジウム
- Place of Presentation
  筑波大学東京キャンパス文京校舎（東京）
- Year and Date
  20131219-20131220
- Invited
[Presentation] 複数ドメインコーパスからの文選択に基づくキャラクター音声合成の検討2013
- Author(s)
  荒生　侑介
- Organizer
  日本音響学会2013年秋季研究発表会
- Place of Presentation
  豊橋技術科学大学（愛知）
- Year and Date
  20130925-20130927
[Presentation] GMMに基づく声質変換のためのMDL基準による混合数の自動決定2013
- Author(s)
  小林　友哉
- Organizer
  日本音響学会2013年秋季研究発表会
- Place of Presentation
  豊橋技術科学大学（愛知）
- Year and Date
  20130925-20130927
[Presentation] スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成2013
- Author(s)
  郡山　知樹
- Organizer
  日本音響学会2013年秋季研究発表会
- Place of Presentation
  豊橋技術科学大学（愛知）
- Year and Date
  20130925-20130927
[Presentation] Statistical nonparametric speech synthesis using sparse Gaussian processes2013
- Author(s)
  郡山知樹
- Organizer
  14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
- Place of Presentation
  リヨンコンベンションセンター（フランス）
- Year and Date
  20130825-20130829
[Presentation] A style control technique for singing voice synthesis based on multiple-regression HSMM2013
- Author(s)
  能勢隆
- Organizer
  14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013
- Place of Presentation
  リヨンコンベンションセンター（フランス）
- Year and Date
  20130825-20130829
[Presentation] Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis2013
- Author(s)
  郡山知樹
- Organizer
  2013 IEEE International Conference on Acoustics, Speech, and signal Processing, ICASSP 2013
- Place of Presentation
  バンクーバーコンベンション＆エキシビションセンター（カナダ）
- Year and Date
  20130526-20130531
[Presentation] Speaker-independent style conversion for HMM-based expressive speech synthesis2013
- Author(s)
  能勢隆
- Organizer
  2013 IEEE International Conference on Acoustics, Speech, and signal Processing, ICASSP 2013
- Place of Presentation
  バンクーバーコンベンション＆エキシビションセンター（カナダ）
- Year and Date
  20130526-20130531

2013 Fiscal Year Annual Research Report

ロバスト音声合成の深化と多言語音声コミュニケーションへの展開

Principal Investigator

小林 隆夫 東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討2014

Author(s)

Journal Title

[Journal Article] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価2014

Author(s)

Journal Title

[Journal Article] HMM音声合成のための音節出現頻度にロバストな音素セットの検討2014

Author(s)

Journal Title

[Journal Article] HMM音声合成における正規化学習を用いたアクセント誤り削減の検討2014

Author(s)

Journal Title

[Journal Article] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価2014

Author(s)

Journal Title

[Journal Article] 音響モデルと言語モデルを利用したアクセント型・アクセント句境界の同時推定2014

Author(s)

Journal Title

[Journal Article] 系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成2014

Author(s)

Journal Title

[Journal Article] Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis2013

Author(s)

Journal Title

DOI

[Journal Article] Speaker-independent style conversion for HMM-based expressive speech synthesis2013

Author(s)

Journal Title

DOI

[Journal Article] Statistical nonparametric speech synthesis using sparse Gaussian processes2013

Author(s)

Journal Title

[Journal Article] A style control technique for singing voice synthesis based on multiple-regression HSMM2013

Author(s)

Journal Title

[Journal Article] 複数ドメインコーパスからの文選択に基づくキャラクター音声合成の検討2013

Author(s)

Journal Title

[Journal Article] GMMに基づく声質変換のためのMDL基準による混合数の自動決定2013

Author(s)

Journal Title

[Journal Article] スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成2013

Author(s)

Journal Title

[Journal Article] 言語モデルと音響モデルを利用したアクセント境界の自動推定2013

Author(s)

Journal Title

[Journal Article] 多様な音声合成に向けた取組みと課題2013

Author(s)

Journal Title

[Presentation] 音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] HMM音声合成のための音節出現頻度にロバストな音素セットの検討2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] HMM音声合成における正規化学習を用いたアクセント誤り削減の検討2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 音響モデルと言語モデルを利用したアクセント型・アクセント句境界の同時推定2014

Author(s)

Organizer

小林隆夫東京工業大学, 総合理工学研究科(研究院), 教授 (70153616)