• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

個性及び表現性ロバストな音声言語インタフェースに関する研究

Research Project

Project/Area Number 21300063
Research InstitutionTokyo Institute of Technology

Principal Investigator

小林 隆夫  Tokyo Institute of Technology, 大学院・総合理工学研究科, 教授 (70153616)

KeywordsHMM音声合成 / テキスト音声合成 / 声質変換 / 対話音声合成 / FO量子化 / 重回帰HMM / 発話様式 / モデル適応
Research Abstract

本研究はロバスト音声合成とロバスト音声認識に関する5項目の基盤要素技術の研究・開発からなり,本年度は以下の成果が得られた。
感情表現・発話様式・声質を制御可能な音声合成に関しては,隠れマルコフモデルに基づく音声合成(HMM音声合成)の枠組みに,基本周波数(FO)量子化に基づく韻律コンテキストを導入することを提案し,FOの正規化及び量子化方法の検討,平均声モデルに基づくテキスト音声合成を利用した韻律コンテキストの付与手法等の基本的な検討を行い,韻律モデルの教師なし学習が可能となることを示した。さらに,提案法を声質変換に適用した場合の有用性を示した。
自然発話・会話音声の合成に関しては,HMM音声合成の枠組みに基づいて,日本語話し言葉音声コーパス(CSJ)を用いた対話音声の合成のための音響モデル構築手法の検討を行い,音響モデル構築に用いるコンテキストの重要性を明らかにした。
パラ言語情報の検出・表出度合推定では,重回帰HMMに基づいたスタイル推定手法を提案し,感情表現や発話様式の種別のみならず,その表現度合を連続量として推定可能なことを示した。また,自然発話音声の発話様式の識別に応用し,その有用性を示した。
話者・スタイル変動に頑健な音声認識に関しては,重回帰HMMに基づいた高速なスタイル適応方式を提案し,感情音声や自然発話音声の認識におけるモデル適応に利用した場合,1文章毎のオンライン適応という少量の適応データしか使用できない場合でも認識率が向上することを明らかにした。
動作からのパラ言語情報の抽出に関しては,3次元フェイスモデルに基づいて話し手の顔の3次元姿勢を推定し,この時間的変位から動作の分類や非言語情報を獲得する手法の基礎的な検討を行った。

  • Research Products

    (34 results)

All 2010 2009

All Journal Article (18 results) (of which Peer Reviewed: 6 results) Presentation (16 results)

  • [Journal Article] A rapid model adaptation technique for emotional speech recognition with style estimation based on multiple-regression HMM2010

    • Author(s)
      Yusuke Ijima
    • Journal Title

      IEICE Transactions on Information and Systems E93-D

      Pages: 107-115

    • Peer Reviewed
  • [Journal Article] A technique for estimating intensity of emotional expressions and speaking styles in speech based on multiple-regression HSMM2010

    • Author(s)
      Takashi Nose
    • Journal Title

      IEICE Transactions on Information and Systems E93-D

      Pages: 116-124

    • Peer Reviewed
  • [Journal Article] HMM-based speech synthesis with unsupervised labeling of accentual context based on F0 quantization and average voice model2010

    • Author(s)
      Takashi Nose
    • Journal Title

      Proc.2010 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2010

      Pages: 4622-4625

    • Peer Reviewed
  • [Journal Article] F0量子化と非パラレル学習に基づく声質変換の評価2010

    • Author(s)
      太田悠平
    • Journal Title

      電子情報通信学会技術研究報告 SP2009-100

      Pages: 27-32

  • [Journal Article] 平均声に基づく対話音声合成に関する検討2010

    • Author(s)
      郡山知樹
    • Journal Title

      電子情報通信学会技術研究報告 SP2009-107

      Pages: 33-38

  • [Journal Article] HMMに基づく対話音声合成のための発話単位の検討2010

    • Author(s)
      郡山知樹
    • Journal Title

      日本音響学会2010年春季研究発表会講演論文集

      Pages: 143-144

  • [Journal Article] 量子化F0コンテキストを用いたHMMに基づく不特定話者声質変換の検討2010

    • Author(s)
      太田悠平
    • Journal Title

      日本音響学会2010年春季研究発表会講演論文集

      Pages: 327-328

  • [Journal Article] 量子化F0韻律コンテキストを用いたHMM音声合成の評価2010

    • Author(s)
      大木康次郎
    • Journal Title

      日本音響学会2010年春季研究発表会講演論文集

      Pages: 341-342

  • [Journal Article] HMM音声合成における韻律コンテキストの評価2010

    • Author(s)
      横溝秀始
    • Journal Title

      日本音響学会2010年春季研究発表会講演論文集

      Pages: 403-404

  • [Journal Article] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009

    • Author(s)
      Yusuke Ijima
    • Journal Title

      Proc.10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009

      Pages: 552-555

    • Peer Reviewed
  • [Journal Article] HMM-based speaker characteristics emphasis using average voice model2009

    • Author(s)
      Takashi Nose
    • Journal Title

      Proc.10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009

      Pages: 2631-2634

    • Peer Reviewed
  • [Journal Article] Emotional speech recognition based on style estimation and adaptation with multiple-regression HMM2009

    • Author(s)
      Yusuke Ijima
    • Journal Title

      Proc.2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2009

      Pages: 4157-4160

    • Peer Reviewed
  • [Journal Article] F0量子化に基づく韻律コンテキストを用いたHMM音声合成2009

    • Author(s)
      大木康次郎
    • Journal Title

      電子情報通信学会技術研究報告 SP2009-87

      Pages: 141-146

  • [Journal Article] F0量子化と非パラレル学習に基づく声質変換の検討2009

    • Author(s)
      太田悠平
    • Journal Title

      電子情報通信学会技術研究報告 SP2009-91

      Pages: 171-176

  • [Journal Article] 重回帰HMMに基づく自然発話音声の発話様式識別2009

    • Author(s)
      能勢隆
    • Journal Title

      電子情報通信学会技術研究報告 SP2009-46

      Pages: 31-36

  • [Journal Article] HMMに基づく対話音声合成の検討2009

    • Author(s)
      郡山知樹
    • Journal Title

      日本音響学会2009年秋季研究発表会講演論文集

      Pages: 255-256

  • [Journal Article] HMM音声合成におけるF0モデルの教師なし学習の検討2009

    • Author(s)
      大木康次郎
    • Journal Title

      日本音響学会2009年秋季研究発表会講演論文集

      Pages: 259-260

  • [Journal Article] F0量子化と非パラレル学習に基づく声質変換2009

    • Author(s)
      太田悠平
    • Journal Title

      日本音響学会2009年秋季研究発表会講演論文集

      Pages: 289-290

  • [Presentation] HMM-based speech synthesis with unsupervised labeling of accentual context based on F0 quantization and average voice model2010

    • Author(s)
      Takashi Nose
    • Organizer
      2010 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2010
    • Place of Presentation
      Dallas, Texas, USA
    • Year and Date
      2010-03-17
  • [Presentation] HMMに基づく対話音声合成のための発話単位の検討2010

    • Author(s)
      郡山知樹
    • Organizer
      日本音響学会2010年春季研究発表会
    • Place of Presentation
      電気通信大学,東京都調布市
    • Year and Date
      2010-03-10
  • [Presentation] 量子化F0韻律コンテキストを用いたHMM音声合成の評価2010

    • Author(s)
      大木康次郎
    • Organizer
      日本音響学会2010年春季研究発表会
    • Place of Presentation
      電気通信大学,東京都調布市
    • Year and Date
      2010-03-09
  • [Presentation] 量子化F0コンテキストを用いたHMMに基づく不特定話者声質変換の検討2010

    • Author(s)
      太田悠平
    • Organizer
      日本音響学会2010年春季研究発表会
    • Place of Presentation
      電気通信大学,東京都調布市
    • Year and Date
      2010-03-08
  • [Presentation] HMM音声合成における韻律コンテキストの評価2010

    • Author(s)
      横溝秀始
    • Organizer
      日本音響学会2010年春季研究発表会
    • Place of Presentation
      電気通信大学,東京都調布市
    • Year and Date
      2010-03-08
  • [Presentation] F0量子化と非パラレル学習に基づく声質変換の評価2010

    • Author(s)
      太田悠平
    • Organizer
      電子情報通信学会・音声研究会
    • Place of Presentation
      京都大学,京都市
    • Year and Date
      2010-01-21
  • [Presentation] 平均声に基づく対話音声合成に関する検討2010

    • Author(s)
      郡山知樹
    • Organizer
      電子情報通信学会・音声研究会
    • Place of Presentation
      京都大学,京都市
    • Year and Date
      2010-01-21
  • [Presentation] F0量子化に基づく韻律コンテキストを用いたHMM音声合成2009

    • Author(s)
      大木康次郎
    • Organizer
      電子情報通信学会
    • Place of Presentation
      東京大学,東京都文京区
    • Year and Date
      2009-12-21
  • [Presentation] F0量子化と非パラレル学習に基づく声質変換の検討2009

    • Author(s)
      太田悠平
    • Organizer
      電子情報通信学会
    • Place of Presentation
      東京大学,東京都文京区
    • Year and Date
      2009-12-21
  • [Presentation] F0量子化と非パラレル学習に基づく声質変換2009

    • Author(s)
      太田悠平
    • Organizer
      日本音響学会2009年秋季研究発表会
    • Place of Presentation
      日本大学,福島県郡山市
    • Year and Date
      2009-09-16
  • [Presentation] HMMに基づく対話音声合成の検討2009

    • Author(s)
      郡山知樹
    • Organizer
      日本音響学会2009年秋季研究発表会
    • Place of Presentation
      日本大学,福島県郡山市
    • Year and Date
      2009-09-15
  • [Presentation] HMM音声合成におけるF0モデルの教師なし学習の検討2009

    • Author(s)
      大木康次郎
    • Organizer
      日本音響学会2009年秋季研究発表会
    • Place of Presentation
      日本大学,福島県郡山市
    • Year and Date
      2009-09-15
  • [Presentation] HMM-based speaker characteristics emphasis using average voice model2009

    • Author(s)
      Takashi Nose
    • Organizer
      10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
    • Place of Presentation
      Brighton, UK
    • Year and Date
      2009-09-10
  • [Presentation] Speaking style adaptation for spontaneous speech recognition using multiple-regression HMM2009

    • Author(s)
      Yusuke Ijima
    • Organizer
      10th Annual Conference of the International Speech Communication Association, INTERSPEECH 2009
    • Place of Presentation
      Brighton, UK
    • Year and Date
      2009-09-07
  • [Presentation] 重回帰HMMに基づく自然発話音声の発話様式識別2009

    • Author(s)
      能熱隆
    • Organizer
      電子情報通信学会 音声研究会
    • Place of Presentation
      飯坂ホテル聚楽,福島県福島市
    • Year and Date
      2009-07-18
  • [Presentation] Emotional speech recognition based on style estimation and adaptation with multiple-regression HMM2009

    • Author(s)
      Yusuke Ijima
    • Organizer
      2009 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2009
    • Place of Presentation
      Taipei, Taiwan
    • Year and Date
      2009-04-21

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi