2010 年度実績報告書

ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究

研究課題

研究課題/領域番号	21800020
研究機関	東京工業大学
研究代表者	能勢隆東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)
キーワード	テキスト音声合成 / 隠れマルコフモデル / 話し言葉音声 / 話者適応 / HMM音声合成 / ヒューマノイドロボット / 音声対話システム / 声質変換
研究概要	本研究はヒューマノイド音声対話システムの実現に向けた多様な音声の認識・合成技術のための各基盤要素技術の研究・開発からなり、本年度は以下に示す3項目について成果が得られた。 (1)話し言葉音声の合成において、目標話者の少量の音声のみから自然な合成音声を生成するためにモデルの学習に読み上げ音声による平均声モデルを導入した二段階モデル適応を提案した。これにより収録やラベル付けにコストがかかる話し言葉音声の利用を極力抑え、既に整備されている豊富な読み上げ音声データベースを用いることにより話し言葉らしさと自然性のバランスが取れた音声を合成することが可能となった。また、強調や語尾上げなどの話し言葉音声において特徴的な表現を考慮したモデル学習によりこれらの表現を合成音声に反映できることを示した。 (2)音声合成における多様化技術として注目されている声質変換技術について、声の高さを表す基本周波数(FO)情報の変換精度を改善するために適応FO量子化に基づく手法を提案した。また任意の間で容易に変換を行うことを目的として不特定話者モデルに基づく声質変換法を提案した。さらに、従来問題となっていた音素認識精度に依存する問題を回避する手法として隠れマルコフモデル(HMM)と混合正規分布を組み合わせた手法を提案した。これらの手法を読み上げ音声に適用した結果良好な結果が得られたため、今後は感情音声や話し言葉音声などのより多様な表現を含む音声についても検討を行う。 (3)HMMに基づく音声合成では声の高さやリズムなどの変化を適切に表現・モデル化するため、音声の音韻および韻律情報をコンテキストとして考慮している。本年度は昨年度の日本語音声に対する評価に加え、あらたに多言語音声合成の実現を目的として、英語音声についても評価を行った。

研究成果
(16件)

すべて 2011 2010

すべて雑誌論文 (5件) (うち査読あり 5件) 学会発表 (11件)

[雑誌論文] HMM-based voice conversion using quantized FO context2010
- 著者名/発表者名
  Takashi Nose, Yuhei Ota, Takao Kobayashi
- 雑誌名
  
  MICE Trans.on Information and Systems
  
  巻: vol.E93-D,No.9 ページ: 2483-2490
- 査読あり
[雑誌論文] Evaluation of prosodic contextual factors for HMM-based speech synthes is2010
- 著者名/発表者名
  Shuji Yokomizo, Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc.11th Annual Conference of the International Speech Communication Association
  
  ページ: 430-433
- 査読あり
[雑誌論文] Conversational spontaneous speech synthesis using average voice model2010
- 著者名/発表者名
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc.11th Annual Conference of the International Speech Communication Association
  
  ページ: 853-856
- 査読あり
[雑誌論文] Speaker-independent HMM-based voice conversion using quantized fund amental frequency2010
- 著者名/発表者名
  Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc.11th Annual Conference of the International Speech Communication Association
  
  ページ: 1724-1727
- 査読あり
[雑誌論文] HMM-based robust voice conversion using adaptive FO quantization2010
- 著者名/発表者名
  Takashi Nose, Takao Kobayashi
- 雑誌名
  
  Proc.7th ISCA Workshop on Speech Synthesis
  
  ページ: 80-85
- 査読あり
[学会発表] 日本語話し言葉コーパスを用いた対話音声合成のための音韻・韻律コンテキストの検討2011
- 著者名/発表者名
  郡山知樹, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2011年春季研究発表会
- 発表場所
  早稲田大学, 東京都新宿区
- 年月日
  2011-03-11
[学会発表] 多様な発話様式によるHMM音声合成のための韻律コンテキストの検討2011
- 著者名/発表者名
  前野悠, 能勢隆, 小林隆夫, 井島勇祐, 中嶋秀治, 水野秀之, 吉岡理
- 学会等名
  日本音響学会2011年春季研究発表会
- 発表場所
  早稲田大学, 東京都新宿区
- 年月日
  2011-03-09
[学会発表] 合成音声を用いた非パラレルデータによる声質変換の検討2011
- 著者名/発表者名
  史潤宇, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2011年春季研究発表会
- 発表場所
  早稲田大学, 東京都新宿区
- 年月日
  2011-03-09
[学会発表] Speaker-independent HMM-based voice conversion using quantized fund amental frequency2010
- 著者名/発表者名
  Takashi Nose, Takao Kobayashi
- 学会等名
  11th Annual Conference of the International Speech Communication Association, INTERSPEECH 2010
- 発表場所
  Makuhari, Japan
- 年月日
  2010-09-29
[学会発表] Conversational spontaneous speech synthesis using average voice model2010
- 著者名/発表者名
  Tomoki Koriyama, Takashi Nose, Takao Kobayashi
- 学会等名
  11th Annual Conference of the International Speech Communication Association, INTERSPEECH 2010
- 発表場所
  Makuhari, Japan
- 年月日
  2010-09-28
[学会発表] Evaluation of prosodic contextual factors for HMM-based speech synthes is2010
- 著者名/発表者名
  Shuji Yokomizo, Takashi Nose, Takao Kobayashi
- 学会等名
  11th Annual Conference of the International Speech Communication Association, INTERSPEECH 2010
- 発表場所
  Makuhari, Japan
- 年月日
  2010-09-27
[学会発表] HMM-based robust voice conversion using adaptive FO quantization2010
- 著者名/発表者名
  Takashi Nose, Takao Kobayashi
- 学会等名
  7th ISCA Workshop on Speech Synthesis, SSW7
- 発表場所
  Kyoto, Japan
- 年月日
  2010-09-27
[学会発表] HMMに基づく英語音声合成の韻律コンテキストの評価2010
- 著者名/発表者名
  横溝秀始, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2010年秋季研究発表会
- 発表場所
  関西大学, 大阪府吹田市
- 年月日
  2010-09-16
[学会発表] 話者適応を用いたHMMに基づく不特定話者間声質変換2010
- 著者名/発表者名
  能勢隆, 小林隆夫
- 学会等名
  日本音響学会2010年秋季研究発表会
- 発表場所
  関西大学, 大阪府吹田市
- 年月日
  2010-09-16
[学会発表] 適応FO量子化によるHMM声質変換の品質改善2010
- 著者名/発表者名
  能勢隆, 小林隆夫
- 学会等名
  日本音響学会2010年秋季研究発表会
- 発表場所
  関西大学, 大阪府吹田市
- 年月日
  2010-09-16
[学会発表] 二段階モデル適応に基づく対話音声合成の検討2010
- 著者名/発表者名
  郡山知樹, 能勢隆, 小林隆夫
- 学会等名
  日本音響学会2010年秋季研究発表会
- 発表場所
  関西大学, 大阪府吹田市
- 年月日
  2010-09-15

2010 年度 実績報告書

ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究

研究代表者

能勢 隆 東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)

研究成果

[雑誌論文] HMM-based voice conversion using quantized FO context2010

著者名/発表者名

雑誌名

[雑誌論文] Evaluation of prosodic contextual factors for HMM-based speech synthes is2010

著者名/発表者名

雑誌名

[雑誌論文] Conversational spontaneous speech synthesis using average voice model2010

著者名/発表者名

雑誌名

[雑誌論文] Speaker-independent HMM-based voice conversion using quantized fund amental frequency2010

著者名/発表者名

雑誌名

[雑誌論文] HMM-based robust voice conversion using adaptive FO quantization2010

著者名/発表者名

雑誌名

[学会発表] 日本語話し言葉コーパスを用いた対話音声合成のための音韻・韻律コンテキストの検討2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 多様な発話様式によるHMM音声合成のための韻律コンテキストの検討2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 合成音声を用いた非パラレルデータによる声質変換の検討2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Speaker-independent HMM-based voice conversion using quantized fund amental frequency2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Conversational spontaneous speech synthesis using average voice model2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Evaluation of prosodic contextual factors for HMM-based speech synthes is2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMM-based robust voice conversion using adaptive FO quantization2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] HMMに基づく英語音声合成の韻律コンテキストの評価2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 話者適応を用いたHMMに基づく不特定話者間声質変換2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 適応FO量子化によるHMM声質変換の品質改善2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 二段階モデル適応に基づく対話音声合成の検討2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

能勢隆東京工業大学, 大学院・総合理工学研究科, 助教 (90550591)