2009 年度実績報告書

ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究

研究課題

研究課題/領域番号	21800020
研究種目	若手研究(スタートアップ)
研究機関	東京工業大学
研究代表者	能勢隆東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)
キーワード	テキスト音声合成 / 隠れマルコフモデル / 話し言葉音声 / 感情音声 / HMM音声合成 / ヒューマノイドロボット / 音声対話システム / ロバスト音声認識
研究概要	本研究はヒューマノイド音声対話システムの実現に向けた多様な音声の認識・合成技術のための各基盤要素技術の研究・開発からなり、本年度は以下に示す4項目について成果が得られた。 (1) 感情や発話様式を伴う音声の認識率の向上を目的とし、重回帰隠れマルコフモデル(HMM)に基づくオンラインでの音響モデルの適応化手法を提案し、入力された発話毎にモデルを適応することの有効性を確認した。また日本語話し言葉コーパス(CSJ)を用いた実験を行い、話し言葉においてもその有効性を確認した。 (2) 音声に表れる感情や発話様式を識別し、さらに表現の度合い推定も可能な手法として音声のスペクトル、基本周波数、音韻継続長を同時に考慮した重回帰隠れセミマルコフモデルに基づくスタイル推定法を提案し模擬音声・自然発話音声による客観および主観評価実験により有効性を確認した。 (3) 音声の中で最も自発性の高い対話音声の合成を目的とし、HMMに基づく対話音声合成法を提案し、対話音声合成のためのコンテキストの検討、対話音声に基づく平均声を用いた合成音声の品質改善などを行った。また、実験により対話における多様な表現が再現されることを示した。 (4) テキスト音声合成において話者や感情・発話様式の多様化を容易にするために、モデル学習時のコストの削減を目的とし、平均声と量子化基本周波数に基づく教師なしモデル学習法を提案し、従来の教師あり学習法に近い品質が得られることを示した。

研究成果
(19件)

すべて 2010 2009

すべて雑誌論文 (7件) (うち査読あり 7件) 学会発表 (12件)

[雑誌論文] A rapid model adaptation technique for emotional speech recognition with stylestimation based on multiple-regression HMM2010
- 著者名/発表者名
  Yusuke Ijima, Takashi Nose, Makoto Tachibana, Takao Kobayashi
- 雑誌名
  
  IEICE Trans. on Information and Systems Vol.E93-D, No.
  
  ページ: 107-115
- 査読あり
[雑誌論文] A technique for estimating intensity of emotional expressions and speaking styles in speech based on multiple-regression HSMM2010
- 著者名/発表者名
  Takashi Nose, Takao Kobayashi
- 雑誌名
  
  IEICE Trans. on Information and Systems Vol.E93-D, No.
  
  ページ: 116-124
- 査読あり
[雑誌論文] HMM-based speech synthesis with unsupervised labeling of accentual context based on FO quantization and average voice model2010
- 著者名/発表者名
  Takashi Nose, Koujirou Ooki, Takao Kobayashi
- 雑誌名
  
  Proc. 2010 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  ページ: 4622-4625
- 査読あり
[雑誌論文] Emotional speech recognition based on style estimation and adaptationwith multiple-regression HMM2009
- 著者名/発表者名
  Yusuke Ijima, Makoto Tachibana, Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc. 2009 IEEE International Conference on Acoustics, Speech and Signal Processing
  
  ページ: 4157-4160
- 査読あり
[雑誌論文] A robust speaker-adaptive HMM-based text-to-speech synthesis2009
- 著者名/発表者名
  Junichi Yamagishi, Takashi Nose, HeigaZen, Zhen-Hua Ling, Tomoki Toda, Keiichi Tokuda, Simon King, Steve Renals
- 雑誌名
  
  IEEE Trans. on Audio, Speech, and Language Processing Vol.17, No.6
  
  ページ: 1208-1230
- 査読あり
[雑誌論文] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009
- 著者名/発表者名
  Yusuke Ijima, Takeshi Matsubara, Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc. 10th Annual Conference of the International Speech Communication Association
  
  ページ: 552-555
- 査読あり
[雑誌論文] HMM-based speaker characteristics emphasis using average voice model2009
- 著者名/発表者名
  Takashi Nose, Junichi Asada, Takao Kobayashi
- 雑誌名
  
  Proc. 10th Annual Conference of the International Speech Communication Association
  
  ページ: 2631-2634
- 査読あり
[学会発表] HMM-based speech synthesis with unsupervised labeling of accentual context based on FO quantization and average voice model2010
- 著者名/発表者名
  Takashi Nose, Koujirou Ooki, Takao Kobayashi
- 学会等名
  2010 IEEE Interantional Conference on Acoustics, Speech and Signal Processing, ICASSP 2010
- 発表場所
  Dallas, Texas, USA
- 年月日
  2010-03-17
[学会発表] HMMに基づく対話音声合成のための発話単位の検討2010
- 著者名/発表者名
  郡山知樹, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2010年春季研究発表会
- 発表場所
  電気通信大学,東京都調布市
- 年月日
  2010-03-10
[学会発表] 量子化FO韻律コンテキストを用いたHMM音声合成の評価2010
- 著者名/発表者名
  大木康次郎, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2010年春季研究発表会
- 発表場所
  電気通信大学,東京都調布市
- 年月日
  2010-03-09
[学会発表] HMM音声合成における韻律コンテキストの評価2010
- 著者名/発表者名
  横溝秀始, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2010年春季研究発表会
- 発表場所
  電気通信大学,東京都調布市
- 年月日
  2010-03-08
[学会発表] 平均声に基づく対話音声合成に関する検討2010
- 著者名/発表者名
  郡山知樹, 能勢隆, 小林隆夫
- 学会等名
  電子情報通信学会・音声研究会
- 発表場所
  京都大学,京都市
- 年月日
  2010-01-21
[学会発表] FO量子化に基づく韻律コンテキストを用いたHMM音声合成2009
- 著者名/発表者名
  大木康次郎, 能勢隆, 小林隆夫
- 学会等名
  電子情報通信学会
- 発表場所
  東京大学,東京都文京区
- 年月日
  2009-12-21
[学会発表] HMMに基づく対話音声合成の検討2009
- 著者名/発表者名
  郡山知樹, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2009年秋季研究発表会
- 発表場所
  日本大学,福島県郡山市
- 年月日
  2009-09-15
[学会発表] HMM音声合成におけるFOモデルの教師なし学習の検討2009
- 著者名/発表者名
  大木康次郎, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2009年秋季研究発表会
- 発表場所
  日本大学,福島県郡山市
- 年月日
  2009-09-15
[学会発表] HMM-based speaker characteristics emphasis using average voice model2009
- 著者名/発表者名
  Takashi Nose, Junichi Asada, Takao Kobayashi
- 学会等名
  10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
- 発表場所
  Brighton, UK
- 年月日
  2009-09-10
[学会発表] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009
- 著者名/発表者名
  Yusuke Ijima, Matsubara, Takashi Nose, Takao Kobayashi
- 学会等名
  10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
- 発表場所
  Brighton, UK
- 年月日
  2009-09-07
[学会発表] 重回帰HMMに基づく自然発話音声の発話様式識別2009
- 著者名/発表者名
  能勢隆, 松原健, 井島勇祐, 小林隆夫
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  飯坂ホテル聚楽,福島県福島市
- 年月日
  2009-07-18
[学会発表] Emotional speech recognition based on style estimation and adaptationwith multiple-regression HMM2009
- 著者名/発表者名
  Yusuke Ijima, Makoto Tachibana, Takashi Nose, Takao Kobayashi
- 学会等名
  2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2009
- 発表場所
  Taipei, Taiwan
- 年月日
  2009-04-21

2009 年度 実績報告書

ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究

研究代表者

能勢 隆 東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)

研究成果

[雑誌論文] A rapid model adaptation technique for emotional speech recognition with stylestimation based on multiple-regression HMM2010

著者名/発表者名

雑誌名

[雑誌論文] A technique for estimating intensity of emotional expressions and speaking styles in speech based on multiple-regression HSMM2010

著者名/発表者名

雑誌名

[雑誌論文] HMM-based speech synthesis with unsupervised labeling of accentual context based on FO quantization and average voice model2010

著者名/発表者名

雑誌名

[雑誌論文] Emotional speech recognition based on style estimation and adaptationwith multiple-regression HMM2009

著者名/発表者名

雑誌名

[雑誌論文] A robust speaker-adaptive HMM-based text-to-speech synthesis2009

著者名/発表者名

雑誌名

[雑誌論文] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009

著者名/発表者名

雑誌名

[雑誌論文] HMM-based speaker characteristics emphasis using average voice model2009

著者名/発表者名

雑誌名

[学会発表] HMM-based speech synthesis with unsupervised labeling of accentual context based on FO quantization and average voice model2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMMに基づく対話音声合成のための発話単位の検討2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 量子化FO韻律コンテキストを用いたHMM音声合成の評価2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMM音声合成における韻律コンテキストの評価2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 平均声に基づく対話音声合成に関する検討2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] FO量子化に基づく韻律コンテキストを用いたHMM音声合成2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMMに基づく対話音声合成の検討2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMM音声合成におけるFOモデルの教師なし学習の検討2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMM-based speaker characteristics emphasis using average voice model2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 重回帰HMMに基づく自然発話音声の発話様式識別2009

著者名/発表者名

学会等名

発表場所

2009 年度実績報告書

能勢隆東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)