2011 Fiscal Year Research-status Report

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

Research Project

Project/Area Number	23700195
Research Institution	Tokyo Institute of Technology
Principal Investigator	能勢隆東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)
Project Period (FY)	2011-04-28 – 2013-03-31
Keywords	HMM音声合成 / 感情音声合成 / ヒューマノイドロボット / 話し言葉音声合成 / スタイル変換
Research Abstract	本研究は、あたかも人間が話しているかのような、より自然でより多様な音声合成システムの実現を目指すものであり、平成２３年度は以下の４項目について成果が得られた。(1)ユーザの主観に基づいた感情音声合成：従来、合成音声に含まれる感情表現の度合は学習データによって決まり、ユーザ（聞き手）が「どのように感じるか」は考慮されていなかった。この問題を解決するため、ユーザによる主観的な感情の度合を定量化してモデル学習に組み込む新たな枠組を提案し、その有効性を示した。(2)教師なし学習に基づく強調音声の合成：強調音声を合成するためには強調表現を含む音声に対し各文章のどの部分に強調表現が現れるかをラベルとして記述する必要がある。より自然な発話様式を伴う音声に対し、これを主観評価により行うには大きなコストが伴い、また評価者間での一致性の問題などが避けられない。提案法では声の高さを表す基本周波数(F0)に着目し、F0生成を利用した自動ラベリングを実現した。(3)話し言葉音声合成のための韻律モデルの改善：従来の音声合成の枠組では高い自発性をもちかつ自然な話し言葉音声を生成することは極めて難しい。本研究では韻律の変動要因としてToBIラベルに基づく詳細な情報を導入し、またこのためのモデルとして韻律単位HMMを提案し、その有効性を示した。(4)任意話者における合成音声のスタイル変換法：任意の話者の多様な感情表現や発話様式を実現するために、それらを含む音声を目標話者毎に用意するには大きなコストがかかるため、その話者の読み上げ調の音声のみから多様なスタイルの音声を合成できることが望ましい。提案法ではこれを実現するため、あらかじめ複数話者間のスタイルの変換規則をHMMに基づくスタイル適応の枠組で学習し、これを目標話者の読み上げ調のモデルに適用することで、任意話者のスタイル音声合成を実現した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 平成２３年度は本研究課題の基盤となる理論の構築に重点をおいて研究を進め、おおむね予想した通りの成果が得られた。
Strategy for Future Research Activity	平成２４年度は前年度に構築した理論を元に、実際に音声データベースを構築し、その分析を行う。そして分析結果に基づき理論の改善を行い、実環境での利用を目的とした合成音声の生成を行う。
Expenditure Plans for the Next FY Research Funding	平成２３年度には基盤となる理論の構築を優先し、一部の音声データ収録を後回しにししたため、これを次年度に計上することとした。平成２４年度は、当初の予定分も合わせて音声データ収録、環境の整備を行い、研究を進める。

Research Products
(39 results)

All 2012 2011

All Journal Article (21 results) (of which Peer Reviewed: 10 results) Presentation (18 results)

[Journal Article] Very low bit-rate F0 coding for phonetic vocoders using MSD-HMM with quantized F0 symbols2012
- Author(s)
  Takashi Nose, Takao Kobayashi
- Journal Title
  
  Speech Communication
  
  Pages: 384-392
- DOI
  10.1016/j.specom.2011.10.002
- Peer Reviewed
[Journal Article] A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis2012
- Author(s)
  Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Speech Communication
  
  Volume: Vol.54, No.2 Pages: 245-255
- DOI
  10.1016/j.specom.2011.08.006
- Peer Reviewed
[Journal Article] HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張2012
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  電子情報通信学会論文誌
  
  Volume: vol.J95-D, no.3 Pages: 597-607
- Peer Reviewed
[Journal Article] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012
- Author(s)
  能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2012年春季研究発表会講演論文集
  
  Volume: vol.1 Pages: 307-308
[Journal Article] 観測値の不連続性を考慮したHMMに基づくF0モデル化の検討2012
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2012年春季研究発表会講演論文集
  
  Volume: vol.1 Pages: 305-306
[Journal Article] Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency2011
- Author(s)
  Takashi Nose, Takao Kobayashi
- Journal Title
  
  Speech Communication
  
  Volume: Vol.53, No.7 Pages: 973-985
- DOI
  10.1016/j.specom.2011.05.001
- Peer Reviewed
[Journal Article] Very low bit-rate F0 coding for phonetic vocoder using MSD-HMM with quantized F0 context2011
- Author(s)
  Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proc. 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2011
  
  Volume: vol.1 Pages: 5236-5239
- Peer Reviewed
[Journal Article] Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis2011
- Author(s)
  Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proc. 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2011
  
  Volume: vol.1 Pages: 4708-4711
- Peer Reviewed
[Journal Article] On the use of extended context for HMM-based spontaneous conversational speech synthesis2011
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proc. 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
  
  Volume: vol.1 Pages: 2657-2660
- Peer Reviewed
[Journal Article] Performance prediction of speech recognition using average-voice-based speech synthesis2011
- Author(s)
  Tatsuhiko Saito, Takashi Nose, Takao Kobayashi, Yohei Okato, Akio Horii
- Journal Title
  
  Proc. 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
  
  Volume: vol.1 Pages: 1953-1956
- Peer Reviewed
[Journal Article] HMM-based emphatic speech synthesis using unsupervised context labeling2011
- Author(s)
  Yu Maeno, Takashi Nose, Takao Kobayashi, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka
- Journal Title
  
  Proc. 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
  
  Volume: vol.1 Pages: 1849-1852
- Peer Reviewed
[Journal Article] A perceptual expressivity modeling technique for speech synthesis based on multiple-regression HSMM2011
- Author(s)
  Takashi Nose, Takao Kobayashi
- Journal Title
  
  Proc. 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
  
  Volume: vol.1 Pages: 109-112
- Peer Reviewed
[Journal Article] 多様な音声合成のための強調コンテキストの自動付与の検討2011
- Author(s)
  前野悠, 能勢隆, 小林隆夫, 井島勇祐, 中嶋秀治, 水野秀之, 吉岡理
- Journal Title
  
  日本音響学会2011年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 335-336
[Journal Article] 対話音声合成のためのイントネーションラベルのタイミング予測2011
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2011年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 333-334
[Journal Article] 感情音声合成における主観的表出度合のモデル化と制御の検討2011
- Author(s)
  能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2011年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 329-330
[Journal Article] 音声合成を用いた音声認識性能予測－残響と騒音が存在する環境での評価－2011
- Author(s)
  太刀岡勇気, 堀井昭男, 岩崎知弘, 斉藤辰彦, 能勢隆, 小林隆夫
- Journal Title
  
  日本音響学会2011年秋季研究発表会講演論文集
  
  Volume: vol.1 Pages: 9-10
[Journal Article] 日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価2011
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: vol.111, no.28 Pages: 155-160
[Journal Article] HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討2011
- Author(s)
  能勢隆, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: vol.111, no.365 Pages: 197-202
[Journal Article] HMM音声合成における不特定話者スタイル変換の検討2011
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: vol.111, no.365 Pages: 191-196
[Journal Article] 韻律イベントHMMを用いた対話音声F0生成2011
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫,
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: vol.111, no.365 Pages: 185-190
[Journal Article] パラ言語情報を表現可能な対話音声合成のための重回帰HSMMの検討2011
- Author(s)
  永田智洋, 森大毅, 能勢隆
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: vol.111, no.365 Pages: 179-184
[Presentation] An F0 modeling technique based on prosodic events for spontaneous speech synthesis2012
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Organizer
  2012 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2012
- Place of Presentation
  Kyoto, Japan
- Year and Date
  2012 – 329
[Presentation] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012
- Author(s)
  能勢隆, 小林隆夫
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学
- Year and Date
  2012 – 313
[Presentation] 観測値の不連続性を考慮したHMMに基づくF0モデル化の検討2012
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学
- Year and Date
  2012 – 313
[Presentation] 多様な音声合成のための強調コンテキストの自動付与の検討2011
- Author(s)
  前野悠, 能勢隆, 小林隆夫, 井島勇祐, 中嶋秀治, 水野秀之, 吉岡理
- Organizer
  日本音響学会2011年秋季研究発表会
- Place of Presentation
  島根大学
- Year and Date
  2011 – 922
[Presentation] 対話音声合成のためのイントネーションラベルのタイミング予測2011
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Organizer
  日本音響学会2011年秋季研究発表会
- Place of Presentation
  島根大学
- Year and Date
  2011 – 922
[Presentation] 感情音声合成における主観的表出度合のモデル化と制御の検討2011
- Author(s)
  能勢隆, 小林隆夫
- Organizer
  日本音響学会2011年秋季研究発表会
- Place of Presentation
  島根大学
- Year and Date
  2011 – 922
[Presentation] 音声合成を用いた音声認識性能予測－残響と騒音が存在する環境での評価－2011
- Author(s)
  太刀岡勇気, 堀井昭男, 岩崎知弘, 斉藤辰彦, 能勢隆, 小林隆夫
- Organizer
  日本音響学会2011年秋季研究発表会
- Place of Presentation
  島根大学
- Year and Date
  2011 – 920
[Presentation] On the use of extended context for HMM-based spontaneous conversational speech synthesis2011
- Author(s)
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- Organizer
  12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
- Place of Presentation
  Florence, Italy
- Year and Date
  2011 – 830
[Presentation] Performance prediction of speech recognition using average-voice-based speech synthesis2011
- Author(s)
  Tatsuhiko Saito, Takashi Nose, Takao Kobayashi, Yohei Okato, Akio Horii
- Organizer
  12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
- Place of Presentation
  Florence, Italy
- Year and Date
  2011 – 829
[Presentation] HMM-based emphatic speech synthesis using unsupervised context labeling2011
- Author(s)
  Yu Maeno, Takashi Nose, Takao Kobayashi, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka
- Organizer
  12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
- Place of Presentation
  Florence, Italy
- Year and Date
  2011 – 829
[Presentation] A perceptual expressivity modeling technique for speech synthesis based on multiple-regression HSMM2011
- Author(s)
  Takashi Nose, Takao Kobayashi
- Organizer
  12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
- Place of Presentation
  Florence, Italy
- Year and Date
  2011 – 828
[Presentation] Very low bit-rate F0 coding for phonetic vocoder using MSD-HMM with quantized F0 context2011
- Author(s)
  Takashi Nose, Takao Kobayashi
- Organizer
  2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, CASSP 2011
- Place of Presentation
  Prague, Czech Republic
- Year and Date
  2011 – 526
[Presentation] Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis2011
- Author(s)
  Vataya Chunwijitra, Takashi Nose, Takao Kobayashi
- Organizer
  2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, CASSP 2011
- Place of Presentation
  Prague, Czech Republic
- Year and Date
  2011 – 524
[Presentation] 日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価2011
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Organizer
  音声研究会
- Place of Presentation
  立命館大学
- Year and Date
  2011 – 513
[Presentation] HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討2011
- Author(s)
  能勢隆, 小林隆夫
- Organizer
  音声言語シンポジウム
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011 – 1221
[Presentation] HMM音声合成における不特定話者スタイル変換の検討2011
- Author(s)
  金川裕紀, 能勢隆, 小林隆夫
- Organizer
  音声言語シンポジウム
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011 – 1221
[Presentation] 韻律イベントHMMを用いた対話音声F0生成2011
- Author(s)
  郡山知樹, 能勢隆, 小林隆夫
- Organizer
  音声言語シンポジウム
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011 – 1221
[Presentation] パラ言語情報を表現可能な対話音声合成のための重回帰HSMMの検討2011
- Author(s)
  永田智洋, 森大毅, 能勢隆
- Organizer
  音声言語シンポジウム
- Place of Presentation
  芝浦工業大学
- Year and Date
  2011 – 1221

2011 Fiscal Year Research-status Report

次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

Principal Investigator

能勢 隆 東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Very low bit-rate F0 coding for phonetic vocoders using MSD-HMM with quantized F0 symbols2012

Author(s)

Journal Title

DOI

[Journal Article] A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis2012

Author(s)

Journal Title

DOI

[Journal Article] HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張2012

Author(s)

Journal Title

[Journal Article] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012

Author(s)

Journal Title

[Journal Article] 観測値の不連続性を考慮したHMMに基づくF0モデル化の検討2012

Author(s)

Journal Title

[Journal Article] Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency2011

Author(s)

Journal Title

DOI

[Journal Article] Very low bit-rate F0 coding for phonetic vocoder using MSD-HMM with quantized F0 context2011

Author(s)

Journal Title

[Journal Article] Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis2011

Author(s)

Journal Title

[Journal Article] On the use of extended context for HMM-based spontaneous conversational speech synthesis2011

Author(s)

Journal Title

[Journal Article] Performance prediction of speech recognition using average-voice-based speech synthesis2011

Author(s)

Journal Title

[Journal Article] HMM-based emphatic speech synthesis using unsupervised context labeling2011

Author(s)

Journal Title

[Journal Article] A perceptual expressivity modeling technique for speech synthesis based on multiple-regression HSMM2011

Author(s)

Journal Title

[Journal Article] 多様な音声合成のための強調コンテキストの自動付与の検討2011

Author(s)

Journal Title

[Journal Article] 対話音声合成のためのイントネーションラベルのタイミング予測2011

Author(s)

Journal Title

[Journal Article] 感情音声合成における主観的表出度合のモデル化と制御の検討2011

Author(s)

Journal Title

[Journal Article] 音声合成を用いた音声認識性能予測 －残響と騒音が存在する環境での評価－2011

Author(s)

Journal Title

[Journal Article] 日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価2011

Author(s)

Journal Title

[Journal Article] HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討2011

Author(s)

Journal Title

[Journal Article] HMM音声合成における不特定話者スタイル変換の検討2011

Author(s)

Journal Title

[Journal Article] 韻律イベントHMMを用いた対話音声F0生成2011

Author(s)

Journal Title

[Journal Article] パラ言語情報を表現可能な対話音声合成のための重回帰HSMMの検討2011

Author(s)

Journal Title

[Presentation] An F0 modeling technique based on prosodic events for spontaneous speech synthesis2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012

Author(s)

能勢隆東京工業大学, 総合理工学研究科(研究院), 助教 (90550591)

[Journal Article] 音声合成を用いた音声認識性能予測－残響と騒音が存在する環境での評価－2011

[Presentation] 音声合成を用いた音声認識性能予測－残響と騒音が存在する環境での評価－2011