2009 Fiscal Year Annual Research Report

個性及び表現性ロバストな音声言語インタフェースに関する研究

Research Project

Project/Area Number	21300063
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫 Tokyo Institute of Technology, 大学院・総合理工学研究科, 教授 (70153616)
Keywords	HMM音声合成 / テキスト音声合成 / 声質変換 / 対話音声合成 / FO量子化 / 重回帰HMM / 発話様式 / モデル適応
Research Abstract	本研究はロバスト音声合成とロバスト音声認識に関する5項目の基盤要素技術の研究・開発からなり,本年度は以下の成果が得られた。感情表現・発話様式・声質を制御可能な音声合成に関しては,隠れマルコフモデルに基づく音声合成(HMM音声合成)の枠組みに,基本周波数(FO)量子化に基づく韻律コンテキストを導入することを提案し,FOの正規化及び量子化方法の検討,平均声モデルに基づくテキスト音声合成を利用した韻律コンテキストの付与手法等の基本的な検討を行い,韻律モデルの教師なし学習が可能となることを示した。さらに,提案法を声質変換に適用した場合の有用性を示した。自然発話・会話音声の合成に関しては,HMM音声合成の枠組みに基づいて,日本語話し言葉音声コーパス(CSJ)を用いた対話音声の合成のための音響モデル構築手法の検討を行い,音響モデル構築に用いるコンテキストの重要性を明らかにした。パラ言語情報の検出・表出度合推定では,重回帰HMMに基づいたスタイル推定手法を提案し,感情表現や発話様式の種別のみならず,その表現度合を連続量として推定可能なことを示した。また,自然発話音声の発話様式の識別に応用し,その有用性を示した。話者・スタイル変動に頑健な音声認識に関しては,重回帰HMMに基づいた高速なスタイル適応方式を提案し,感情音声や自然発話音声の認識におけるモデル適応に利用した場合,1文章毎のオンライン適応という少量の適応データしか使用できない場合でも認識率が向上することを明らかにした。動作からのパラ言語情報の抽出に関しては,3次元フェイスモデルに基づいて話し手の顔の3次元姿勢を推定し,この時間的変位から動作の分類や非言語情報を獲得する手法の基礎的な検討を行った。

Research Products
(34 results)

All 2010 2009

All Journal Article (18 results) (of which Peer Reviewed: 6 results) Presentation (16 results)

[Journal Article] A rapid model adaptation technique for emotional speech recognition with style estimation based on multiple-regression HMM2010
- Author(s)
  Yusuke Ijima
- Journal Title
  
  IEICE Transactions on Information and Systems E93-D
  
  Pages: 107-115
- Peer Reviewed
[Journal Article] A technique for estimating intensity of emotional expressions and speaking styles in speech based on multiple-regression HSMM2010
- Author(s)
  Takashi Nose
- Journal Title
  
  IEICE Transactions on Information and Systems E93-D
  
  Pages: 116-124
- Peer Reviewed
[Journal Article] HMM-based speech synthesis with unsupervised labeling of accentual context based on F0 quantization and average voice model2010
- Author(s)
  Takashi Nose
- Journal Title
  
  Proc.2010 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2010
  
  Pages: 4622-4625
- Peer Reviewed
[Journal Article] F0量子化と非パラレル学習に基づく声質変換の評価2010
- Author(s)
  太田悠平
- Journal Title
  
  電子情報通信学会技術研究報告 SP2009-100
  
  Pages: 27-32
[Journal Article] 平均声に基づく対話音声合成に関する検討2010
- Author(s)
  郡山知樹
- Journal Title
  
  電子情報通信学会技術研究報告 SP2009-107
  
  Pages: 33-38
[Journal Article] HMMに基づく対話音声合成のための発話単位の検討2010
- Author(s)
  郡山知樹
- Journal Title
  
  日本音響学会2010年春季研究発表会講演論文集
  
  Pages: 143-144
[Journal Article] 量子化F0コンテキストを用いたHMMに基づく不特定話者声質変換の検討2010
- Author(s)
  太田悠平
- Journal Title
  
  日本音響学会2010年春季研究発表会講演論文集
  
  Pages: 327-328
[Journal Article] 量子化F0韻律コンテキストを用いたHMM音声合成の評価2010
- Author(s)
  大木康次郎
- Journal Title
  
  日本音響学会2010年春季研究発表会講演論文集
  
  Pages: 341-342
[Journal Article] HMM音声合成における韻律コンテキストの評価2010
- Author(s)
  横溝秀始
- Journal Title
  
  日本音響学会2010年春季研究発表会講演論文集
  
  Pages: 403-404
[Journal Article] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009
- Author(s)
  Yusuke Ijima
- Journal Title
  
  Proc.10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
  
  Pages: 552-555
- Peer Reviewed
[Journal Article] HMM-based speaker characteristics emphasis using average voice model2009
- Author(s)
  Takashi Nose
- Journal Title
  
  Proc.10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
  
  Pages: 2631-2634
- Peer Reviewed
[Journal Article] Emotional speech recognition based on style estimation and adaptation with multiple-regression HMM2009
- Author(s)
  Yusuke Ijima
- Journal Title
  
  Proc.2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2009
  
  Pages: 4157-4160
- Peer Reviewed
[Journal Article] F0量子化に基づく韻律コンテキストを用いたHMM音声合成2009
- Author(s)
  大木康次郎
- Journal Title
  
  電子情報通信学会技術研究報告 SP2009-87
  
  Pages: 141-146
[Journal Article] F0量子化と非パラレル学習に基づく声質変換の検討2009
- Author(s)
  太田悠平
- Journal Title
  
  電子情報通信学会技術研究報告 SP2009-91
  
  Pages: 171-176
[Journal Article] 重回帰HMMに基づく自然発話音声の発話様式識別2009
- Author(s)
  能勢隆
- Journal Title
  
  電子情報通信学会技術研究報告 SP2009-46
  
  Pages: 31-36
[Journal Article] HMMに基づく対話音声合成の検討2009
- Author(s)
  郡山知樹
- Journal Title
  
  日本音響学会2009年秋季研究発表会講演論文集
  
  Pages: 255-256
[Journal Article] HMM音声合成におけるF0モデルの教師なし学習の検討2009
- Author(s)
  大木康次郎
- Journal Title
  
  日本音響学会2009年秋季研究発表会講演論文集
  
  Pages: 259-260
[Journal Article] F0量子化と非パラレル学習に基づく声質変換2009
- Author(s)
  太田悠平
- Journal Title
  
  日本音響学会2009年秋季研究発表会講演論文集
  
  Pages: 289-290
[Presentation] HMM-based speech synthesis with unsupervised labeling of accentual context based on F0 quantization and average voice model2010
- Author(s)
  Takashi Nose
- Organizer
  2010 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2010
- Place of Presentation
  Dallas, Texas, USA
- Year and Date
  2010-03-17
[Presentation] HMMに基づく対話音声合成のための発話単位の検討2010
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2010年春季研究発表会
- Place of Presentation
  電気通信大学,東京都調布市
- Year and Date
  2010-03-10
[Presentation] 量子化F0韻律コンテキストを用いたHMM音声合成の評価2010
- Author(s)
  大木康次郎
- Organizer
  日本音響学会2010年春季研究発表会
- Place of Presentation
  電気通信大学,東京都調布市
- Year and Date
  2010-03-09
[Presentation] 量子化F0コンテキストを用いたHMMに基づく不特定話者声質変換の検討2010
- Author(s)
  太田悠平
- Organizer
  日本音響学会2010年春季研究発表会
- Place of Presentation
  電気通信大学,東京都調布市
- Year and Date
  2010-03-08
[Presentation] HMM音声合成における韻律コンテキストの評価2010
- Author(s)
  横溝秀始
- Organizer
  日本音響学会2010年春季研究発表会
- Place of Presentation
  電気通信大学,東京都調布市
- Year and Date
  2010-03-08
[Presentation] F0量子化と非パラレル学習に基づく声質変換の評価2010
- Author(s)
  太田悠平
- Organizer
  電子情報通信学会・音声研究会
- Place of Presentation
  京都大学,京都市
- Year and Date
  2010-01-21
[Presentation] 平均声に基づく対話音声合成に関する検討2010
- Author(s)
  郡山知樹
- Organizer
  電子情報通信学会・音声研究会
- Place of Presentation
  京都大学,京都市
- Year and Date
  2010-01-21
[Presentation] F0量子化に基づく韻律コンテキストを用いたHMM音声合成2009
- Author(s)
  大木康次郎
- Organizer
  電子情報通信学会
- Place of Presentation
  東京大学,東京都文京区
- Year and Date
  2009-12-21
[Presentation] F0量子化と非パラレル学習に基づく声質変換の検討2009
- Author(s)
  太田悠平
- Organizer
  電子情報通信学会
- Place of Presentation
  東京大学,東京都文京区
- Year and Date
  2009-12-21
[Presentation] F0量子化と非パラレル学習に基づく声質変換2009
- Author(s)
  太田悠平
- Organizer
  日本音響学会2009年秋季研究発表会
- Place of Presentation
  日本大学,福島県郡山市
- Year and Date
  2009-09-16
[Presentation] HMMに基づく対話音声合成の検討2009
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2009年秋季研究発表会
- Place of Presentation
  日本大学,福島県郡山市
- Year and Date
  2009-09-15
[Presentation] HMM音声合成におけるF0モデルの教師なし学習の検討2009
- Author(s)
  大木康次郎
- Organizer
  日本音響学会2009年秋季研究発表会
- Place of Presentation
  日本大学,福島県郡山市
- Year and Date
  2009-09-15
[Presentation] HMM-based speaker characteristics emphasis using average voice model2009
- Author(s)
  Takashi Nose
- Organizer
  10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
- Place of Presentation
  Brighton, UK
- Year and Date
  2009-09-10
[Presentation] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009
- Author(s)
  Yusuke Ijima
- Organizer
  10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
- Place of Presentation
  Brighton, UK
- Year and Date
  2009-09-07
[Presentation] 重回帰HMMに基づく自然発話音声の発話様式識別2009
- Author(s)
  能熱隆
- Organizer
  電子情報通信学会音声研究会
- Place of Presentation
  飯坂ホテル聚楽,福島県福島市
- Year and Date
  2009-07-18
[Presentation] Emotional speech recognition based on style estimation and adaptation with multiple-regression HMM2009
- Author(s)
  Yusuke Ijima
- Organizer
  2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2009
- Place of Presentation
  Taipei, Taiwan
- Year and Date
  2009-04-21

2009 Fiscal Year Annual Research Report

個性及び表現性ロバストな音声言語インタフェースに関する研究

Principal Investigator

小林 隆夫 Tokyo Institute of Technology, 大学院・総合理工学研究科, 教授 (70153616)

Research Products

[Journal Article] A rapid model adaptation technique for emotional speech recognition with style estimation based on multiple-regression HMM2010

Author(s)

Journal Title

[Journal Article] A technique for estimating intensity of emotional expressions and speaking styles in speech based on multiple-regression HSMM2010

Author(s)

Journal Title

[Journal Article] HMM-based speech synthesis with unsupervised labeling of accentual context based on F0 quantization and average voice model2010

Author(s)

Journal Title

[Journal Article] F0量子化と非パラレル学習に基づく声質変換の評価2010

Author(s)

Journal Title

[Journal Article] 平均声に基づく対話音声合成に関する検討2010

Author(s)

Journal Title

[Journal Article] HMMに基づく対話音声合成のための発話単位の検討2010

Author(s)

Journal Title

[Journal Article] 量子化F0コンテキストを用いたHMMに基づく不特定話者声質変換の検討2010

Author(s)

Journal Title

[Journal Article] 量子化F0韻律コンテキストを用いたHMM音声合成の評価2010

Author(s)

Journal Title

[Journal Article] HMM音声合成における韻律コンテキストの評価2010

Author(s)

Journal Title

[Journal Article] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009

Author(s)

Journal Title

[Journal Article] HMM-based speaker characteristics emphasis using average voice model2009

Author(s)

Journal Title

[Journal Article] Emotional speech recognition based on style estimation and adaptation with multiple-regression HMM2009

Author(s)

Journal Title

[Journal Article] F0量子化に基づく韻律コンテキストを用いたHMM音声合成2009

Author(s)

Journal Title

[Journal Article] F0量子化と非パラレル学習に基づく声質変換の検討2009

Author(s)

Journal Title

[Journal Article] 重回帰HMMに基づく自然発話音声の発話様式識別2009

Author(s)

Journal Title

[Journal Article] HMMに基づく対話音声合成の検討2009

Author(s)

Journal Title

[Journal Article] HMM音声合成におけるF0モデルの教師なし学習の検討2009

Author(s)

Journal Title

[Journal Article] F0量子化と非パラレル学習に基づく声質変換2009

Author(s)

Journal Title

[Presentation] HMM-based speech synthesis with unsupervised labeling of accentual context based on F0 quantization and average voice model2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] HMMに基づく対話音声合成のための発話単位の検討2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 量子化F0韻律コンテキストを用いたHMM音声合成の評価2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 量子化F0コンテキストを用いたHMMに基づく不特定話者声質変換の検討2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] HMM音声合成における韻律コンテキストの評価2010

小林隆夫 Tokyo Institute of Technology, 大学院・総合理工学研究科, 教授 (70153616)