• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実績報告書

超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立

研究課題

研究課題/領域番号 25280061
研究機関名古屋工業大学

研究代表者

徳田 恵一  名古屋工業大学, 工学(系)研究科(研究院), 教授 (20217483)

研究分担者 李 晃伸  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80332766)
南角 吉彦  名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
戸田 智基  奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)
山岸 順一  国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (70709352)
研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード音声合成 / 超巨大データ / 音声モデル
研究実績の概要

人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その構築技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の構築」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の構築」の2つを目的とする。
当該年度は、技術的基盤の構築として、統計的励振源モデルの改善による合成音声の自然性の改善、書き文字と音声データのみから音声合成システムを構築する枠組みの開発による多言語音声合成手法の実現、オーディオブックなどの多様性を含む音声データを用いて様々な声質を同時にモデル化する手法の開発による多様性の向上に取り組んだ。さらに、ニューラルネットワークを用いた音声合成手法などの新規理論の検証を行い、さらなる合成音声の品質改善に取り組んできた。これらを通して、合成音声の品質を改善することができたが、さらなる改善が求められている。特に、合成音声の多様性の改善は重要であり、今後もオーディオブックなどの大量の音声データを利用した多様な声質を再現可能な音声合成手法の開発に取り組んでいく。
また、社会的基盤の構築として、前年度から引き続き音声収録ツールの開発を進めるとともに、50人以上に対して実際に音声収録を行うことによって、収集に必要な知見の集積と音声データの収集を行ってきた。さらに、収集した音声データに対するライセンス形態を産学官連携センターと協力して設計しており、音声データを共有するための枠組みの検討を進めた。

現在までの達成度 (区分)
現在までの達成度 (区分)

1: 当初の計画以上に進展している

理由

当該年度の研究計画としては、人間の音声のあらゆる多種多様性を表現できるユニバーサルな音声モデルの実現を目指し、様々な話者や感情を表すことが可能な音声合成方式を開発することであった。当該年度はこのような話者や感情などの多様性について取り組むと同時に、書き文字と音声データから音声合成システムを構築可能な枠組みを開発することによって、あらゆる言語の音声合成システムを構築することを可能とした。また、当該年度の研究計画としては、音声収録ツールの開発を行う予定であったが、当初の予定よりも多い人数の音声を収録することによって、音声収録ツールの開発が大きく進んだ。このことから、本研究課題は当初の計画以上に進展しているといえる。

今後の研究の推進方策

今後は、当該年度までに取り組んできた各研究課題をまとめていき、オーディオブックなどの大量の音声データから多種多様な音声を表現可能なユニバーサルな音声モデルを構築するための枠組みを検証する。複数の理論や手法を統合することで、これまで以上に柔軟に声質を変換することが可能な手法を目指す。
また、音声収録を継続的に行うことで、音声収録に必要な要件をまとめていき、発話者に負担をかけないような音声収録ツールを開発するとともに、収録した音声を共有することが可能になるようなライセンス形態をまとめていく。

次年度使用額が生じた理由

既存のファイルサーバーやハードディスクに容量の余裕ができたため、当初計画していたサーバーを新規購入せずにそちらを活用したことが理由である。

次年度使用額の使用計画

音声データの収集は当初の計画以上に進んでいるため、次年度に追加のサーバーまたはハードディスクを購入するために使用する。

  • 研究成果

    (18件)

すべて 2015 2014 その他

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (10件) (うち招待講演 2件) 図書 (1件) 備考 (5件)

  • [雑誌論文] Integration of spectral feature extraction and modeling for HMM-based speech synthesis2014

    • 著者名/発表者名
      Kazuhiro Nakamura, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E97-D ページ: 1438-1448

    • DOI

      10.1587/transinf.E97.D.1438

    • 査読あり
  • [雑誌論文] Spectral modeling with contextual additive structure for HMM-based speech synthesis2014

    • 著者名/発表者名
      Shinji Takaki, Yoshihiko Nankaku and Keiichi Tokuda
    • 雑誌名

      IEEE Journal of Selected Topics in Signal Processing

      巻: 8 ページ: 229-238

    • DOI

      10.1109/JSTSP.2014.2305919

    • 査読あり
  • [学会発表] The effect of neural networks in statistical parametric speech synthesis2015

    • 著者名/発表者名
      Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • 学会等名
      2015 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2015)
    • 発表場所
      Brisbane, Australia
    • 年月日
      2015-04-19 – 2015-04-24
  • [学会発表] HMM歌声合成における音声データの誤りに頑健なモデル化手法の検討2015

    • 著者名/発表者名
      虫鹿弘二, 中村和寛, 橋本 佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • 学会等名
      音楽情報科学研究会
    • 発表場所
      山梨
    • 年月日
      2015-03-02 – 2015-03-02
  • [学会発表] 統計モデルに基づいた柔軟な音声合成 ~人間のように喋る機械の実現を目指して~2014

    • 著者名/発表者名
      徳田恵一
    • 学会等名
      音声言語シンポジウム (IEEE Fellow記念講演)
    • 発表場所
      東京
    • 年月日
      2014-12-15 – 2014-12-15
    • 招待講演
  • [学会発表] 統計モデルに基づいた音声合成 -人間のように喋る機械の実現を目指して-2014

    • 著者名/発表者名
      徳田恵一
    • 学会等名
      IEEE Nagoya Section, IEEE Fellow受賞記念講演
    • 発表場所
      名古屋
    • 年月日
      2014-12-13 – 2014-12-13
    • 招待講演
  • [学会発表] Overview of NITECH HMM-based text-to-speech system for Blizzard Challenge 20142014

    • 著者名/発表者名
      Kei Sawada, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Keiichi Tokuda
    • 学会等名
      Blizzard Challenge 2014 Workshop
    • 発表場所
      Singapore
    • 年月日
      2014-09-19 – 2014-09-19
  • [学会発表] A mel-cepstral analysis technique restoring high frequency components from low-sampling-rate speech2014

    • 著者名/発表者名
      Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • 学会等名
      Interspeech 2014
    • 発表場所
      Singapore
    • 年月日
      2014-09-14 – 2014-09-18
  • [学会発表] H/L型アクセント推定と音響モデリングを統合したHMM音声合成の検討2014

    • 著者名/発表者名
      神谷翔大, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会秋季研究発表会
    • 発表場所
      北海道
    • 年月日
      2014-09-03 – 2014-09-05
  • [学会発表] 因子分析に基づくHMM音声合成における基底クラスタリングの検討2014

    • 著者名/発表者名
      吉村建慶, 橋本佳, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会秋季研究発表会
    • 発表場所
      北海道
    • 年月日
      2014-09-03 – 2014-09-05
  • [学会発表] ニューラルネットワークに基づく音声合成における生成モデルの利用の検討2014

    • 著者名/発表者名
      橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
    • 学会等名
      日本音響学会秋季研究発表会
    • 発表場所
      北海道
    • 年月日
      2014-09-03 – 2014-09-05
  • [学会発表] HMM-based singing voice synthesis and its application to Japanese and English2014

    • 著者名/発表者名
      Kazuhiro Nakamura, Keiichiro Oura, Yoshihiko Nankaku, Keiichi Tokuda
    • 学会等名
      2014 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2014)
    • 発表場所
      Florence, Italy
    • 年月日
      2014-05-04 – 2014-05-09
  • [図書] おしゃべりなコンピュータ ―音声合成技術の現在と未来―2015

    • 著者名/発表者名
      山岸順一, 徳田恵一, 戸田智基, みわよしこ
    • 総ページ数
      210
    • 出版者
      丸善ライブラリ
  • [備考] 音声対話システム構築ツールキットMMDAgent

    • URL

      http://www.mmdagent.jp/

  • [備考] 音声信号処理ツールキットSPTK

    • URL

      http://sp-tk.sourceforge.net/

  • [備考] HMM音声合成エンジンhts_engine API

    • URL

      http://hts-engine.sourceforge.net/

  • [備考] HMM音声合成ツールキット HTS

    • URL

      http://hts.sp.nitech.ac.jp/

  • [備考] 日本語テキスト音声合成システムOpen JTalk

    • URL

      http://open-jtalk.sourceforge.net/

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi