• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

テキスト音声合成のためのニューラルネットワークに基づく波形ダイレクトモデリング

研究課題

研究課題/領域番号 16K16096
研究種目

若手研究(B)

配分区分基金
研究分野 知覚情報処理
研究機関国立情報学研究所

研究代表者

高木 信二  国立情報学研究所, コンテンツ科学研究系, 特任助教 (50735090)

研究期間 (年度) 2016-04-01 – 2019-03-31
研究課題ステータス 完了 (2018年度)
配分額 *注記
3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2018年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2017年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2016年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード音声合成 / DNN / スペクトル / ディープニューラルネットワーク / 信号処理
研究成果の概要

本課題では、従来のテキスト音声合成に含まれるヒューリスティックに用いられてきた処理を取り除き、Deep Neural Networkを用いた音声波形のダイレクトモデリング手法に基づくテキスト音声合成の実現を目的とする。ヒューリスティックな処理を除いた単純な窓掛とフーリエ変換を用いて得られたスペクトルのモデル化、位相情報も含めたスペクトルのモデル化、スペクトル誤差を用いた音声波形のモデル学習を検討し、音声波形のダイレクトモデリング手法を実現した。

研究成果の学術的意義や社会的意義

音声インターフェースの核となる技術であるテキスト音声合成の性能改善のため、Deep Neural Networkを用いた音声波形モデリングが盛んに研究されている。本課題では、非常に注目されているこの研究トピックについて取り組み、テキスト音声合成の性能改善を行った。テキスト音声合成を用いる既存のシステムの性能改善,性能改善に伴う応用アプリの普及等多くの波及効果を期待できる。

報告書

(4件)
  • 2018 実績報告書   研究成果報告書 ( PDF )
  • 2017 実施状況報告書
  • 2016 実施状況報告書
  • 研究成果

    (15件)

すべて 2019 2018 2017 2016

すべて 雑誌論文 (3件) (うち国際共著 1件、 査読あり 3件、 オープンアクセス 2件、 謝辞記載あり 1件) 学会発表 (12件) (うち国際学会 5件、 招待講演 2件)

  • [雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019

    • 著者名/発表者名
      Nakashika Toru、Takaki Shinji、Yamagishi Junichi
    • 雑誌名

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      巻: 27 号: 2 ページ: 244-254

    • DOI

      10.1109/taslp.2018.2877465

    • 関連する報告書
      2018 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Investigating very deep highway networks for parametric speech synthesis2018

    • 著者名/発表者名
      Wang Xin、Takaki Shinji、Yamagishi Junichi
    • 雑誌名

      Speech Communication

      巻: 96 ページ: 1-9

    • DOI

      10.1016/j.specom.2017.11.002

    • 関連する報告書
      2017 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Investigation of Using Continuous Representation of Various Linguistic Units in Neural Network Based Text-to-Speech Synthesis2016

    • 著者名/発表者名
      Xin Wang, Shinji Takaki, Junichi Yamagishi
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E99.D 号: 10 ページ: 2471-2480

    • DOI

      10.1587/transinf.2016SLP0011

    • NAID

      130005598240

    • ISSN
      0916-8532, 1745-1361
    • 関連する報告書
      2016 実施状況報告書
    • 査読あり / 謝辞記載あり
  • [学会発表] CWTスペクトル誤差に基づくDNN音声波形モデルの学習2019

    • 著者名/発表者名
      高木 信二, 亀岡 弘和, 山岸 順一
    • 学会等名
      音声研究会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] スペクトル系列誤差に基づくDNN音声波形モデルの学習2018

    • 著者名/発表者名
      高木 信二, 中鹿 亘, 山岸 順一
    • 学会等名
      日本音響学会秋季研究発表会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] ディープラーニングによるテキスト音声合成の進展2018

    • 著者名/発表者名
      高木信二
    • 学会等名
      日本音響学会春季研究発表会
    • 関連する報告書
      2017 実施状況報告書
    • 招待講演
  • [学会発表] An Autoregressive Recurrent Mixture Density Network for Parametric Speech Synthesis2017

    • 著者名/発表者名
      Xin Wang, Shinji Takaki, Junichi Yamagishi
    • 学会等名
      IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
    • 発表場所
      Hilton Conference Centre, New Orleans, USA
    • 年月日
      2017-03-07
    • 関連する報告書
      2016 実施状況報告書
    • 国際学会
  • [学会発表] とてもDeepなテキスト音声合成2017

    • 著者名/発表者名
      高木 信二
    • 学会等名
      音声研究会
    • 発表場所
      東京大学
    • 年月日
      2017-01-21
    • 関連する報告書
      2016 実施状況報告書
    • 招待講演
  • [学会発表] Direct modeling of frequency spectra and waveform generation based on phase recovery for DNN-based speech synthesis2017

    • 著者名/発表者名
      Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2017 実施状況報告書
    • 国際学会
  • [学会発表] Complex-valued restricted Boltzmann machine for direct learning of frequency spectra2017

    • 著者名/発表者名
      Toru Nakashika, Shinji Takaki, Junichi Yamagishi
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2017 実施状況報告書
    • 国際学会
  • [学会発表] Generative Adversarial Network-based Postfilter for STFT Spectrograms2017

    • 著者名/発表者名
      Takuhiro Kaneko, Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi
    • 学会等名
      INTERSPEECH
    • 関連する報告書
      2017 実施状況報告書
    • 国際学会
  • [学会発表] DNNに基づくテキスト音声合成のためのFFTスペクトルを用いた位相復元に基づく音声波形生成2016

    • 著者名/発表者名
      高木 信二,SangJin Kim,亀岡 弘和,山岸 順一
    • 学会等名
      第18回音声言語シンポジウム
    • 発表場所
      NTT武蔵野研究開発センタ
    • 年月日
      2016-12-20
    • 関連する報告書
      2016 実施状況報告書
  • [学会発表] DNNに基づくテキスト音声合成における話者・ジェンダー・年齢コード利用の検討2016

    • 著者名/発表者名
      Hieu Thi Luong, 高木信二, SangJin Kim, 山岸順一
    • 学会等名
      音声研究会
    • 発表場所
      静岡大学
    • 年月日
      2016-10-27
    • 関連する報告書
      2016 実施状況報告書
  • [学会発表] Speaker Adaptation of Various Components in Deep Neural Network based Speech Synthesis2016

    • 著者名/発表者名
      Shinji Takaki, SangJin Kim, Junichi Yamagishi
    • 学会等名
      9th Speech Synthesis Workshop (SSW9)
    • 発表場所
      Plug and Play Tech Center
    • 年月日
      2016-09-14
    • 関連する報告書
      2016 実施状況報告書
    • 国際学会
  • [学会発表] 巨大特定話者データを用いたHMM・DNN・RNNに基づく音声合成システムの性能評価2016

    • 著者名/発表者名
      Wang Xin,高木 信二,山岸 順一
    • 学会等名
      第112回音声言語情報処理研究
    • 発表場所
      山形県天童市鎌田本町・天童温泉・ほほえみの宿「滝の湯」
    • 年月日
      2016-07-28
    • 関連する報告書
      2016 実施状況報告書

URL: 

公開日: 2016-04-21   更新日: 2020-03-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi