2011 Fiscal Year Annual Research Report

個性及び表現性ロバストな音声言語インタフェースに関する研究

Research Project

Project/Area Number	21300063
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
Keywords	HMM音声合成 / テキスト音声合成 / 基本周波数量子化コンテキスト / 自然発話音声 / 重回帰HMM / 音声スタイル制御 / 音声スタイル推定 / モデル適応
Research Abstract	本研究はロバスト音声合成とロバスト音声認識に関する5項目の基盤要素技術の研究・開発からなり,本年度(最終年度)は第二年度までに得られた成果に基づいて,残された問題点の解決に向けた新たな手法の提案とその評価検討を行い,以下の成果が得られた。感情表現・発話様式・声質を制御可能な音声合成に関しては,基本周波数量子化コンテキストを用いた音声合成,声質変換及び音声符号化システムのそれぞれについて詳細な性能評価を行い,従来手法に対する提案手法の有効性を明らかにした。また,タイ語の音声合成に応用した場合についても詳細な評価を行い,声調を含む韻律生成において提案手法の有効性を示した。さらに,不特定話者を対象とした音声のスタイル制御法を新たに提案し,評価検討を行った。自然発話・会話音声の合成に関しては,隠れマルコフモデルに基づく音声合成(HMM音声合成)の枠組みに基づいて提案した新たなコンテキストセットについて詳細な評価を行い,多様性が高い自然発話対話音声の自然な韻律の実現に有用であることを明らかにすると共に,モデルパラメータ共有のための決定木停止基準や,より効率的な基本周波数モデリングのための新たな韻律モデル単位を提案し,それらの有用性を示した。パラ言語情報の検出・表出度合推定,話者・スタイル変動に頑健な音声認識,動作からのパラ言語情報の抽出の3項目に関しては,問題解決に向けた提案手法における共通基盤技術となる重回帰隠れマルコフモデル(重回帰HMM)のための学習法について検討を行い,主観的な表出度合を考慮する適応学習を組込んだ新たな学習法を提案し,主観評価と重回帰説明変数の相関性を高める効果があることを示した。

Research Products
(32 results)

All 2012 2011

All Journal Article (18 results) (of which Peer Reviewed: 10 results) Presentation (14 results)

[Journal Article] Very low bit-rate F0 coding for phonetic vocoders using MSD-HMM with quantized F0 symbols2012
- Author(s)
  Takashi Nose
- Journal Title
  
  Speech Communication
  
  Volume: 54 Pages: 384-392
- Peer Reviewed
[Journal Article] A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis2012
- Author(s)
  Vataya Chunwijitra
- Journal Title
  
  Speech Communication
  
  Volume: 54 Pages: 245-255
- Peer Reviewed
[Journal Article] An F0 modeling technique based on prosodic events for spontaneous speech synthesis2012
- Author(s)
  Tomoki Koriyama
- Journal Title
  
  Proceedings of 2012 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2012
  
  Pages: 4589-4592
- Peer Reviewed
[Journal Article] HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張2012
- Author(s)
  郡山知樹
- Journal Title
  
  電子情報通信学会論文誌
  
  Volume: J95-D Pages: 597-607
- Peer Reviewed
[Journal Article] 観測値の不連続性を考慮したHMMに基づくF0モデル化の検討2012
- Author(s)
  郡山知樹
- Journal Title
  
  日本音響学会2012年春季研究発表会講演論文集
  
  Pages: 305-306
[Journal Article] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012
- Author(s)
  能勢隆
- Journal Title
  
  日本音響学会2012年春季研究発表会講演論文集
  
  Pages: 307-308
[Journal Article] Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency2011
- Author(s)
  Takashi Nose
- Journal Title
  
  Speech Communication
  
  Volume: 53 Pages: 973-985
- Peer Reviewed
[Journal Article] Recent development of HMM-based expressive speech synthesis and its applications2011
- Author(s)
  Takashi Nose
- Journal Title
  
  Proceedings of 2011 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2011
- Peer Reviewed
[Journal Article] A perceptual expressivity modeling technique for speech synthesis based on multiple-regression HSMM2011
- Author(s)
  Takashi Nose
- Journal Title
  
  Proceedings of the 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
  
  Pages: 109-112
- Peer Reviewed
[Journal Article] On the use of extended context for HMM-based spontaneous conversational speech synthesis2011
- Author(s)
  Tomoki Koriyama
- Journal Title
  
  Proceedings of the 12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
  
  Pages: 2657-2660
- Peer Reviewed
[Journal Article] Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis2011
- Author(s)
  Vataya Chunwijitra
- Journal Title
  
  Proceedings of 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2011
  
  Pages: 4708-4711
- Peer Reviewed
[Journal Article] Very low bit-rate F0 coding for phonetic vocoder using MSD-HMM with quantized F0 context2011
- Author(s)
  Takashi Nose
- Journal Title
  
  Proceedings of 2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2011
  
  Pages: 5236-5239
- Peer Reviewed
[Journal Article] 韻律イベントHMMを用いた対話音声F0生成2011
- Author(s)
  郡山知樹
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: 111,SP2011-98 Pages: 185-190
[Journal Article] HMM音声合成における不特定話者スタイル変換の検討2011
- Author(s)
  金川裕紀
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: 111,SP2011-99 Pages: 191-196
[Journal Article] HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討2011
- Author(s)
  能勢隆
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: 111,SP2011-100 Pages: 197-202
[Journal Article] 日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価2011
- Author(s)
  郡山知樹
- Journal Title
  
  電子情報通信学会技術研究報告
  
  Volume: 111,SP2011-27 Pages: 155-160
[Journal Article] 感情音声合成における主観的表出度合のモデル化と制御の検討2011
- Author(s)
  能勢隆
- Journal Title
  
  日本音響学会2011年秋季研究発表会講演論文集
  
  Pages: 329-330
[Journal Article] 対話音声合成のためのイントネーションラベルのタイミング予測2011
- Author(s)
  郡山知樹
- Journal Title
  
  日本音響学会2011年秋季研究発表会講演論文集
  
  Pages: 333-334
[Presentation] An F0 modeling technique based on prosodic events for spontaneous speech synthesis2012
- Author(s)
  Tomoki Koriyama
- Organizer
  2012 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2012
- Place of Presentation
  Kyoto, Japan
- Year and Date
  2012-03-29
[Presentation] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012
- Author(s)
  能勢隆
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学,神奈川県横浜市
- Year and Date
  2012-03-13
[Presentation] 観測値の不連続性を考慮したHMMに基づくF0モデル化の検討2012
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2012年春季研究発表会
- Place of Presentation
  神奈川大学,神奈川県横浜市
- Year and Date
  2012-03-13
[Presentation] 韻律イベントHMMを用いた対話音声F0生成2011
- Author(s)
  郡山知樹
- Organizer
  2011年12月度音声研究会
- Place of Presentation
  芝浦工業大学,東京都江東区
- Year and Date
  2011-12-20
[Presentation] HMM音声合成における不特定話者スタイル変換の検討2011
- Author(s)
  金川裕紀
- Organizer
  2011年12月度音声研究会
- Place of Presentation
  芝浦工業大学,東京都江東区
- Year and Date
  2011-12-20
[Presentation] HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討2011
- Author(s)
  能勢隆
- Organizer
  2011年12月度音声研究会
- Place of Presentation
  芝浦工業大学,東京都江東区
- Year and Date
  2011-12-20
[Presentation] Recent development of HMM-based expressive speech synthesis and its applications2011
- Author(s)
  Takashi Nose
- Organizer
  2011 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2011
- Place of Presentation
  Xi'an, China
- Year and Date
  2011-10-19
[Presentation] 感情音声合成における主観的表出度合のモデル化と制御の検討2011
- Author(s)
  能勢隆
- Organizer
  日本音響学会2011年秋季研究発表会
- Place of Presentation
  島根大学,島根県松江市
- Year and Date
  2011-09-22
[Presentation] 対話音声合成のためのイントネーションラベルのタイミング予測2011
- Author(s)
  郡山知樹
- Organizer
  日本音響学会2011年秋季研究発表会
- Place of Presentation
  島根大学,島根県松江市
- Year and Date
  2011-09-22
[Presentation] On the use of extended context for HMM-based spontaneous conversational speech synthesis2011
- Author(s)
  Tomoki Koriyama
- Organizer
  12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
- Place of Presentation
  Florence, Italy
- Year and Date
  2011-08-30
[Presentation] A perceptual expressivity modeling technique for speech synthesis based on multiple-regression HSMM2011
- Author(s)
  Takashi Nose
- Organizer
  12th Annual Conference of the International Speech Communication Association, INTERSPEECH 2011
- Place of Presentation
  Florence, Italy
- Year and Date
  2011-08-28
[Presentation] Very low bit-rate F0 coding for phonetic vocoder using MSD-HMM with quantized F0 context2011
- Author(s)
  Takashi Nose
- Organizer
  2011 IEEE International Conference on Acousties, Speech, and Signal Processing, ICASSP 2011
- Place of Presentation
  Prague, Czech Republic
- Year and Date
  2011-05-26
[Presentation] Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis2011
- Author(s)
  Vataya Chunwijitra
- Organizer
  2011 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2011
- Place of Presentation
  Prague, Czech Republic
- Year and Date
  2011-05-24
[Presentation] 日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価2011
- Author(s)
  郡山知樹
- Organizer
  2011年5月度音声研究会
- Place of Presentation
  立命館大学,大阪府大阪市
- Year and Date
  2011-05-13

2011 Fiscal Year Annual Research Report

個性及び表現性ロバストな音声言語インタフェースに関する研究

Principal Investigator

小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

Research Products

[Journal Article] Very low bit-rate F0 coding for phonetic vocoders using MSD-HMM with quantized F0 symbols2012

Author(s)

Journal Title

[Journal Article] A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis2012

Author(s)

Journal Title

[Journal Article] An F0 modeling technique based on prosodic events for spontaneous speech synthesis2012

Author(s)

Journal Title

[Journal Article] HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張2012

Author(s)

Journal Title

[Journal Article] 観測値の不連続性を考慮したHMMに基づくF0モデル化の検討2012

Author(s)

Journal Title

[Journal Article] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012

Author(s)

Journal Title

[Journal Article] Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency2011

Author(s)

Journal Title

[Journal Article] Recent development of HMM-based expressive speech synthesis and its applications2011

Author(s)

Journal Title

[Journal Article] A perceptual expressivity modeling technique for speech synthesis based on multiple-regression HSMM2011

Author(s)

Journal Title

[Journal Article] On the use of extended context for HMM-based spontaneous conversational speech synthesis2011

Author(s)

Journal Title

[Journal Article] Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis2011

Author(s)

Journal Title

[Journal Article] Very low bit-rate F0 coding for phonetic vocoder using MSD-HMM with quantized F0 context2011

Author(s)

Journal Title

[Journal Article] 韻律イベントHMMを用いた対話音声F0生成2011

Author(s)

Journal Title

[Journal Article] HMM音声合成における不特定話者スタイル変換の検討2011

Author(s)

Journal Title

[Journal Article] HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討2011

Author(s)

Journal Title

[Journal Article] 日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価2011

Author(s)

Journal Title

[Journal Article] 感情音声合成における主観的表出度合のモデル化と制御の検討2011

Author(s)

Journal Title

[Journal Article] 対話音声合成のためのイントネーションラベルのタイミング予測2011

Author(s)

Journal Title

[Presentation] An F0 modeling technique based on prosodic events for spontaneous speech synthesis2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 合成音声のスタイル制御における系列内変動を考慮したスペクトル・韻律パラメータの生成2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 観測値の不連続性を考慮したHMMに基づくF0モデル化の検討2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 韻律イベントHMMを用いた対話音声F0生成2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] HMM音声合成における不特定話者スタイル変換の検討2011

小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)