• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Annual Research Report

超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立

Research Project

Project/Area Number 25280061
Research Category

Grant-in-Aid for Scientific Research (B)

Research InstitutionNagoya Institute of Technology

Principal Investigator

徳田 恵一  名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

Co-Investigator(Kenkyū-buntansha) 李 晃伸  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
南角 吉彦  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
戸田 智基  奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)
山岸 順一  国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (70709352)
Project Period (FY) 2013-04-01 – 2016-03-31
Keywords音声合成 / 超巨大データ / 音声モデル
Research Abstract

人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その構築技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の確立」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の確立」の2つを目的とする。
当該年度は、まず、音声合成の新規理論の整備と予備実験を行った。これまでに我々が取り組んできた隠れマルコフモデルに基づく音声合成(HMM音声合成)方式の性能改善を目指し、新たな励振源モデルや、音声の変動要因を高精度にモデル化する手法の検討を行った。また、感情や発話スタイル、話者などの多様な声質を再現する音声合成のための基盤技術として因子分析に基づく固有声手法や、多言語や歌声も合成可能な手法の検討にも取り組んだ。さらに、これらの手法について予備実験を行い、その性能を評価した。今後は、これらの手法のより詳細な検証を通して、音声合成システムの改善に取り組んでいく。
また、音声データの収集・蓄積・共有・維持のための検討を行った。具体的には、音声合成システムが構築されている各分野の調査や音声データを提供するための適切なインセンティブの検討を行った。今後は様々な分野で共通して使うことが可能な、わかりやすいライセンス形態の設計に取り組んでいく。さらに、音声を効率よく収録するための音声収録ツールの試作を行った。試作した音声収録ツールを用いて実際の音声収録を行うことで多くの知見が得られた。得られた知見をもとに、今後更なる改良に取り組んでいく。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

人間の音声のあらゆる多種多様性を表現できるユニバーサルな音声モデルの実現を目指し、当該年度の研究計画としては、多種多様な言語、話者性、発話スタイル、感情表現を実現する枠組みの確立と、新たな社会基盤の確立に向けた適切なインセンティブの設計を予定していた。当該年度は、これらの研究課題に取り組むと同時に、翌年度以降の実施を計画していた、整理されていない膨大な音声データを自動処理する枠組みの確立にも取り組んだ。このことから、本研究課題は当初の計画以上に進展しているといえる。

Strategy for Future Research Activity

今後は、当該年度に取り組んだ各研究課題を継続して進めていくとともに、多種多様な音声を表現可能なユニバーサルな音声モデルを構築するためのフレームワーク全体の検証を進めていく。特に、複数の言語を合成可能な音声合成手法の検討や、膨大な音声データから自動学習するためのアルゴリズムの検討に取り組んでいく。さらに、音声データを収集・蓄積・共有・維持するために、当該年度の調査結果や検討をもとに、様々な分野で共通につかえるわかりやすいライセンス形態の設計を行っていく。また、実際に音声収録を継続的に行っていくことで、発話者に負担をかけないような音声収録ツールの開発、改善にも並行して取り組んでいく。

Expenditure Plans for the Next FY Research Funding

既存のサーバーに予定外の容量の余裕ができたため、当初計画していたサーバーを新規に購入せずにそちらを活用したことが理由である。
音声データ収集は当初の計画以上に進んでいるため、次年度に、当初計画していたサーバーよりも大規模なものを購入するために使用する。

  • Research Products

    (38 results)

All 2014 2013 Other

All Journal Article (4 results) (of which Peer Reviewed: 4 results) Presentation (29 results) (of which Invited: 5 results) Remarks (5 results)

  • [Journal Article] Spectral modeling with contextual additive structure for HMM-based speech synthesis2014

    • Author(s)
      Shinji Takaki, Yoshihiko Nankaku and Keiichi Tokuda
    • Journal Title

      IEEE Journal of Selected Topics in Signal Processing

      Volume: 8 Pages: 229-238

    • DOI

      10.1109/JSTSP.2014.2305919

    • Peer Reviewed
  • [Journal Article] Integration of spectral feature extraction and modeling for HMM-based speech synthesis2014

    • Author(s)
      Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: vol.E97-D, no.6 Pages: 印刷中

    • Peer Reviewed
  • [Journal Article] Speech Synthesis Based on Hidden Markov Models2013

    • Author(s)
      Keiichi Tokuda, Yoshihiko Nankaku, Tomoki Toda, Heiga Zen, Junichi Yamagishi, Keiichiro Oura
    • Journal Title

      Proceedings of the IEEE

      Volume: vol.101, no.5 Pages: 1234~1252

    • DOI

      10.1109/JPROC.2013.2251852

    • Peer Reviewed
  • [Journal Article] A Bayesian framework using multiple model structures for speech recognition2013

    • Author(s)
      Sayaka Shiota, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: vol.E96-D, no.4 Pages: 939~948

    • DOI

      10.1587/transinf.E96.D.939

    • Peer Reviewed
  • [Presentation] Integration of speaker and pitch adaptive training for HMM-based singing voice synthesis2014

    • Author(s)
      Kanako Shirota, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      ICASSP 2014
    • Place of Presentation
      Florence, Italy
    • Year and Date
      20140504-20140509
  • [Presentation] HMM-based singing voice synthesis and its application to Japanese and English2014

    • Author(s)
      Kazuhiro Nakamura, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      ICASSP 2014
    • Place of Presentation
      Florence, Italy
    • Year and Date
      20140504-20140509
  • [Presentation] 条件付き確率場に基づく仮説の逐次早期確定を用いた低遅延音声インタフェース2014

    • Author(s)
      伊神陽介, 李晃伸, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] 統計的音声対話システムにおける登録キーワードの近傍単語を優先した仮説生成に基づく応答選択2014

    • Author(s)
      小升章裕, 李晃伸, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] 表現語空間を用いた連結固有声法に基づくクロスリンガル話者適応の検討2014

    • Author(s)
      佐藤雄介, 中村和寛, 橋本佳, 大浦圭一郎,南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] GMM事後確率に基づいた重み付き変換関数による声質変換の検討2014

    • Author(s)
      鶴野高輝, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] HMM歌声合成における音声データの誤りに頑健なモデル学習手法の検討2014

    • Author(s)
      虫鹿弘二, 中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] HMM音声合成におけるLSPに関連した特徴量表現の検討2014

    • Author(s)
      有竹貴士, 中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] 低周波数標本化音声データの広帯域成分復元を考慮したメルケプストラム分析の検討2014

    • Author(s)
      中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] 状態レベルのコンテキストを用いたHMM音声合成の検討2014

    • Author(s)
      大浦圭一郎, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会春季研究発表会
    • Place of Presentation
      東京
    • Year and Date
      20140310-20140312
  • [Presentation] 「音声合成」は今後こうなる!2014

    • Author(s)
      徳田恵一
    • Organizer
      情報処理学会音声言語情報処理研究会(SIG-SLP 第100 回記念シンポジウム)
    • Place of Presentation
      静岡
    • Year and Date
      20140131-20140201
    • Invited
  • [Presentation] 変分ベイズ法による特徴量生成を用いた対数線形モデルに基づく話者認識2014

    • Author(s)
      柘植彬史, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      音声研究会
    • Place of Presentation
      名古屋
    • Year and Date
      20140123-20140124
  • [Presentation] Flexible speech synthesis based on hidden Markov models2013

    • Author(s)
      Keiichi Tokuda
    • Organizer
      APSIPA ASC 2013
    • Place of Presentation
      Kaohsiung, Taiwan
    • Year and Date
      20131029-20131101
    • Invited
  • [Presentation] Image recognition based on hidden Markov eigen-image models using variational Bayesian method2013

    • Author(s)
      Kei Sawada, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      APSIPA ASC 2013
    • Place of Presentation
      Kaohsiung, Taiwan
    • Year and Date
      20131029-20131101
  • [Presentation] Tibetan speech synthesis by speaker adaptive training2013

    • Author(s)
      Hong-wu Yang, Keiichiro Oura, Zhen-ye Gan, Keiichi Tokuda
    • Organizer
      APSIPA ASC 2013
    • Place of Presentation
      Kaohsiung, Taiwan
    • Year and Date
      20131029-20131101
  • [Presentation] HMM に基づく英語歌声合成の検討2013

    • Author(s)
      中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      愛知
    • Year and Date
      20130925-20130927
  • [Presentation] ベイズ統計量を用いた対数線形モデルに基づく話者認識2013

    • Author(s)
      柘植彬史, 橋本佳, 南角吉彦, 徳田恵一
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      愛知
    • Year and Date
      20130925-20130927
  • [Presentation] ユーザ生成型音声対話コンテンツに向けた有限状態トランスデューサに基づく簡潔な対話記述法の検討2013

    • Author(s)
      船谷内泰斗, 大浦圭一郎, 南角吉彦, 李晃伸, 徳田恵一
    • Organizer
      日本音響学会秋季研究発表会
    • Place of Presentation
      愛知
    • Year and Date
      20130925-20130927
  • [Presentation] Cross-lingual speaker adaptation based on factor analysis using bilingual speech data for HMM-based speech synthesis2013

    • Author(s)
      Takenori Yoshimura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      8th ISCA Speech Synthesis Workshop
    • Place of Presentation
      Barcelona, Spain
    • Year and Date
      20130831-20130902
  • [Presentation] Contextual partial additive structure for HMM-based speech synthesis2013

    • Author(s)
      Shinji Takaki, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      ICASSP 2013
    • Place of Presentation
      Vancouver, Canada
    • Year and Date
      20130526-20130531
  • [Presentation] Integration of acoustic modeling and mel-cepstral analysis for HMM-based speech synthesis2013

    • Author(s)
      Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      ICASSP 2013
    • Place of Presentation
      Vancouver, Canada
    • Year and Date
      20130526-20130531
  • [Presentation] MMDAgent -a fully open-source toolkit for voice interaction systems-2013

    • Author(s)
      Akinobu Lee, Keiichiro Oura, and Keiichi Tokuda
    • Organizer
      ICASSP 2013
    • Place of Presentation
      Vancouver, Canada
    • Year and Date
      20130526-20130531
  • [Presentation] Separable lattice 2-d HMMs introducing state duration control for recognition of images with various variations2013

    • Author(s)
      Takaya Makino, Shinji Takaki, Kei Hashimoto, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      ICASSP 2013
    • Place of Presentation
      Vancouver, Canada
    • Year and Date
      20130526-20130531
  • [Presentation] Image recognition based on separable lattice trajectory HMMs2013

    • Author(s)
      Akira Tamamori, Yoshihiko Nankaku, Keiichi Tokuda
    • Organizer
      ICASSP 2013
    • Place of Presentation
      Vancouver, Canada
    • Year and Date
      20130526-20130531
  • [Presentation] 統計的機械学習問題としての音声合成2013

    • Author(s)
      徳田恵一
    • Organizer
      情報処理学会音楽情報科学研究会
    • Place of Presentation
      東京
    • Year and Date
      20130511-20130512
    • Invited
  • [Presentation] Sinsy -隠れマルコフモデルに基づく歌声合成の現状と今後-2013

    • Author(s)
      大浦圭一郎, 南角吉彦, 徳田恵一
    • Organizer
      情報処理学会音楽情報科学研究会
    • Place of Presentation
      東京
    • Year and Date
      20130511-20130512
  • [Presentation] メイちゃん誕生秘話

    • Author(s)
      徳田恵一
    • Organizer
      地域活性化シンポジウム「双方向音声案内サイネージシス
    • Place of Presentation
      愛知
    • Invited
  • [Presentation] ユーザ参加型双方向音声案内デジタルサイネージシステム:「メイちゃん」

    • Author(s)
      徳田恵一
    • Organizer
      平成25年度電気関係学会東海支部連合大会
    • Place of Presentation
      静岡
    • Invited
  • [Presentation] Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2013

    • Author(s)
      Shinji Takaki, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Keiichi Tokuda
    • Organizer
      Blizzard Challenge 2013 Workshop
    • Place of Presentation
      Barcelona, Spain
  • [Remarks] 音声対話システム構築ツールキットMMDAgent

    • URL

      http://www.mmdagent.jp/

  • [Remarks] HMM音声合成ツールキット HTS

    • URL

      http://hts.sp.nitech.ac.jp/

  • [Remarks] HMM音声合成エンジン hts_engine API

    • URL

      http://hts-engine.sourceforge.net/

  • [Remarks] 日本語音声合成システム Open JTalk

    • URL

      http://open-jtalk.sourceforge.net/

  • [Remarks] 音声信号処理ツールキット SPTK

    • URL

      http://sp-tk.sourceforge.net/

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi