• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

深層ガウス過程に基づく統計的音声合成

研究課題

研究課題/領域番号 19K20292
研究種目

若手研究

配分区分基金
審査区分 小区分61010:知覚情報処理関連
研究機関東京大学

研究代表者

郡山 知樹  東京大学, 大学院情報理工学系研究科, 講師 (50749124)

研究期間 (年度) 2019-04-01 – 2022-03-31
研究課題ステータス 完了 (2021年度)
配分額 *注記
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2020年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
2019年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
キーワードガウス過程 / 深層学習 / 音声合成 / 潜在変数モデル / 時系列モデル / end-to-endモデル / 深層ガウス過程 / 音声情報処理 / 系列モデリング / 時系列モデリング / 機械学習
研究開始時の研究の概要

ヒューマン・マシン・コミュニケーションにおいて重要な機能である音声合成において,深層モデルを用いた機械学習は不可欠なものとなっている.しかし,広く用いられる深層ニューラルネットワーク(DNN)は,未知のデータに対する頑健性を保証しないという問題点がある.そこで本研究課題では,未知のデータに頑健なモデルとして提案されている深層ガウス過程に注目し検討を行う.具体的には,統計モデルに基づく音声合成において,DNNに替わるモデルとして深層ガウス過程に基づくモデルを提案し,応用研究の十分でない深層ガウス過程モデルに対し,音声合成への応用を通じて,学習データに頑健な学習法や時系列を考慮したモデル構造を検討する.

研究成果の概要

未知のデータに頑健なモデルとして提案されている深層ガウス過程(Deep Gaussian process, DGP)を,時系列のモデル化が必要な音声合成に応用する手法として,リカレント構造やself-attention構造,sequence-to-sequence構造を持つDGPを提案した.提案手法は同様の構造を持つDNN音声合成より高品質な音声を合成できる傾向があることを示した.本研究課題の成果によって,ニューラルネットワークに用いられる様々な構造がDGPでも実現可能であり,ベイズの特徴を用いた頑健な深層学習ができることを示した.

研究成果の学術的意義や社会的意義

現在,多くの機械学習の研究はDNNを基盤要素としているが,DNNの学習におけるハイパーパラメータの調整は手間のかかるものであり,機械学習モデルの構築は職人作業のようになっている現状がある.代替となり得るモデルとしてガウス過程回帰に注目が集まっているが,自由度が低く様々なデータに適用できない問題があった.本研究の応用実験によってガウス過程回帰の深層モデルとしての自由度の向上を明らかにした.この成果によって,音声に限らず自由度の高い深層学習モデルの頑健な学習への道筋の一つを示した.

報告書

(4件)
  • 2021 実績報告書   研究成果報告書 ( PDF )
  • 2020 実施状況報告書
  • 2019 実施状況報告書
  • 研究成果

    (20件)

すべて 2022 2021 2020 2019

すべて 学会発表 (20件) (うち国際学会 6件)

  • [学会発表] アクセント潜在変数を用いた方言音声合成における文単位生成の評価2022

    • 著者名/発表者名
      湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋
    • 学会等名
      電子情報通信学会技術研究報告
    • 関連する報告書
      2021 実績報告書
  • [学会発表] Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer2021

    • 著者名/発表者名
      Taiki Nakamura, Tomoki Koriyama, Hiroshi Saruwatari
    • 学会等名
      Proc. Interspeech 2021
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure Discriminator2021

    • 著者名/発表者名
      Kazuki Mizuta, Tomoki Koriyama, Hiroshi Saruwatari
    • 学会等名
      Proc. Interspeech 2021
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] Accent Modeling of Low-Resourced Dialect in Pitch Accent Language Using Variational Autoencoder2021

    • 著者名/発表者名
      Kazuya Yufune, Tomoki Koriyama, Shinnosuke Takamichi, Hiroshi Saruwatari
    • 学会等名
      Proc. 11th ISCA Speech Synthesis Workshop (SSW 11)
    • 関連する報告書
      2021 実績報告書
    • 国際学会
  • [学会発表] Self-Attention構造を有する深層ガウス過程を用いたSequence-to-Sequence音声合成2021

    • 著者名/発表者名
      中村泰貴, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2021年秋季研究発表会講演論文集
    • 関連する報告書
      2021 実績報告書
  • [学会発表] VQ-VAEに基づくアクセントの潜在変数表現を用いた方言音声合成2021

    • 著者名/発表者名
      湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋
    • 学会等名
      日本音響学会2021年秋季研究発表会講演論文集
    • 関連する報告書
      2021 実績報告書
  • [学会発表] 活性化関数とカーネル関数の関係性を用いたガウス過程音声合成の評価2021

    • 著者名/発表者名
      郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2021年春季研究発表会講演論文集
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 深層ガウス過程を用いたsequence-to-sequence音声合成のモデル構造の評価2021

    • 著者名/発表者名
      中村泰貴, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2021年春季研究発表会講演論文集
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 音声の周波数特性を考慮した畳み込み層を持つ波形生成モデルの検討2021

    • 著者名/発表者名
      水田和輝, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2021年春季研究発表会講演論文集
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020

    • 著者名/発表者名
      Tomoki Koriyama, Hiroshi Saruwatari
    • 学会等名
      Proc. 45th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020)
    • 関連する報告書
      2020 実施状況報告書
    • 国際学会
  • [学会発表] Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes2020

    • 著者名/発表者名
      Kentaro Mitsui, Tomoki Koriyama, Hiroshi Saruwatari
    • 学会等名
      Proc. Interspeech 2020
    • 関連する報告書
      2020 実施状況報告書
    • 国際学会
  • [学会発表] 多話者音声合成における深層ガウス過程潜在変数モデルを用いた音響モデル・話者表現の同時学習2020

    • 著者名/発表者名
      三井健太郎, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2020年秋季研究発表会講演論文集
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 変分オートエンコーダを用いたアクセントの潜在変数表現の検討2020

    • 著者名/発表者名
      湯舟航耶, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2020年秋季研究発表会講演論文集
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討2020

    • 著者名/発表者名
      中村泰貴, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2020年秋季研究発表会講演論文集
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit2020

    • 著者名/発表者名
      Tomoki Koriyama, Hiroshi Saruwatari
    • 学会等名
      Proc. 45th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020), (May 2020)
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [学会発表] 深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討2020

    • 著者名/発表者名
      郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2020年春季研究発表会講演論文集, 2-Q-44, pp.1127-1128. (Mar. 2020)
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] Attentionに基づく音声変換のためのアラインメント予測モデルの検討2020

    • 著者名/発表者名
      芹川武尊, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2020年春季研究発表会講演論文集, 2-2-2, pp.1077-1078. (Mar. 2020)
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] 深層ガウス過程に基づく多話者音声合成2020

    • 著者名/発表者名
      三井健太郎, 郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2020年春季研究発表会講演論文集, 1-2-2, pp.1043-1044. (Mar. 2020)
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] 深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討2020

    • 著者名/発表者名
      三井健太郎, 郡山知樹, 猿渡洋
    • 学会等名
      電子情報通信学会技術研究報告, vol.119, no.398, SP2019-49, pp.31-36. (Jan. 2020)
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] 深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討2019

    • 著者名/発表者名
      郡山知樹, 猿渡洋
    • 学会等名
      日本音響学会2019年秋季研究発表会講演論文集, 1-P-25, pp.1025-1026. (Sept. 2019)
    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2019-04-18   更新日: 2023-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi