• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

音声中の感情と話者性を制御できる拡張ボルツマン分布に基づく確率モデル

研究課題

研究課題/領域番号 18K18069
研究種目

若手研究

配分区分基金
審査区分 小区分61010:知覚情報処理関連
研究機関電気通信大学

研究代表者

中鹿 亘  電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)

研究期間 (年度) 2018-04-01 – 2021-03-31
研究課題ステータス 完了 (2020年度)
配分額 *注記
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2020年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2018年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード音声信号処理 / 機械学習 / 確率・統計 / 声質変換 / 感情音声変換 / 感情変換
研究成果の概要

音声信号処理分野において、話者認識と感情認識など、異なる複数のタスクを同時に実現する手法は確立されていない。本研究では、様々な因子間の関係性を自由に表現できる性質を持つボルツマンマシンに着目し、話者認識・感情認識・話者変換・感情変換を同時に実現する手法を検討し、その有効性について評価した。実験結果により、たった一つのボルツマンマシンを用いて話者認識・感情認識・話者変換・感情変換が実現できることが分かり、また、話者のみ、感情のみを表現したあるボルツマンマシンと比べて同時に話者・感情を表現したボルツマンマシンの方が高い精度で認識・変換が可能であることが明らかとなった。

研究成果の学術的意義や社会的意義

本研究の実験結果は、エネルギー関数を適切に設計することで様々な特徴因子間の関係性を紐解くボルツマンマシンの有効性を示唆しており、意義のある研究成果であると考える。また副次的な研究成果として、複素数データを直接表現する変分オートエンコーダや、音声コミュニケーションにおける言語・生理・音響の連鎖を考慮したボルツマンマシンを用いた声質変換・音声認識のマルチタスク学習など、新たな手法の着想や知見を得ることもできた。

報告書

(4件)
  • 2020 実績報告書   研究成果報告書 ( PDF )
  • 2019 実施状況報告書
  • 2018 実施状況報告書
  • 研究成果

    (33件)

すべて 2021 2020 2019 2018

すべて 雑誌論文 (3件) (うち査読あり 3件、 オープンアクセス 3件) 学会発表 (29件) (うち国際学会 14件) 産業財産権 (1件)

  • [雑誌論文] Speech Chain VC: Linking Linguistic and Acoustic Levels via Latent Distinctive Features for RBM-Based Voice Conversion2020

    • 著者名/発表者名
      KISHIDA Takuya、NAKASHIKA Toru
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E103.D 号: 11 ページ: 2340-2350

    • DOI

      10.1587/transinf.2020EDP7032

    • NAID

      130007933848

    • ISSN
      0916-8532, 1745-1361
    • 年月日
      2020-11-01
    • 関連する報告書
      2020 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Pre-Training of DNN-Based Speech Synthesis Based on Bidirectional Conversion between Text and Speech2019

    • 著者名/発表者名
      SONE Kentaro、NAKASHIKA Toru
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E102.D 号: 8 ページ: 1546-1553

    • DOI

      10.1587/transinf.2018EDP7344

    • NAID

      130007686441

    • ISSN
      0916-8532, 1745-1361
    • 年月日
      2019-08-01
    • 関連する報告書
      2019 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019

    • 著者名/発表者名
      Nakashika Toru、Takaki Shinji、Yamagishi Junichi
    • 雑誌名

      IEEE/ACM Transactions on Audio, Speech, and Language Processing

      巻: 27 号: 2 ページ: 244-254

    • DOI

      10.1109/taslp.2018.2877465

    • 関連する報告書
      2018 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] Attention RBMによる音声特徴量系列の符号化と生成2021

    • 著者名/発表者名
      岸田 拓也,中鹿 亘
    • 学会等名
      日本音響学会2021年春季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] 条件付きボルツマンマシンによる位相復元の初期検討2021

    • 著者名/発表者名
      羽賀 洋克,矢田部 浩平,岸田 拓也,中鹿 亘
    • 学会等名
      日本音響学会2021年春季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] VQVAEに基づくリアルタイム波形ベース声質変換の検討2021

    • 著者名/発表者名
      大西 弘太郎,中鹿 亘,松本 光春
    • 学会等名
      日本音響学会2021年春季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] Simultaneous Conversion of Speaker Identity and Emotion Based on Multiple-Domain Adaptive RBM2020

    • 著者名/発表者名
      Takuya Kishida, Shin Tsukamoto, Toru Nakashika
    • 学会等名
      Interspeech 2020
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Complex-Valued Variational Autoencoder: A Novel Deep Generative Model for Direct Representation of Complex Spectra2020

    • 著者名/発表者名
      Toru Nakashika
    • 学会等名
      Interspeech 2020
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Gamma Boltzmann Machine for Simultaneously Modeling Linear- and Log-amplitude Spectra2020

    • 著者名/発表者名
      Toru Nakashika and Kohei Yatabe
    • 学会等名
      APSIPA Annual Summit and Conference 2020
    • 関連する報告書
      2020 実績報告書
    • 国際学会
  • [学会発表] Cluster ARBM を用いた話者・音韻相互作用分類による声質変換2020

    • 著者名/発表者名
      岸田 拓也,中鹿 亘
    • 学会等名
      日本音響学会2020年秋季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] 適応型 RBM を用いた音声情報の分離による話者と感情の同時変換2020

    • 著者名/発表者名
      塚本 伸,岸田 拓也,中鹿 亘
    • 学会等名
      日本音響学会2020年春季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] HMelGAN: 階層的構造を導入した敵対的学習ネットワークに基づく高速ニューラルボコーダ2020

    • 著者名/発表者名
      大西 弘太郎,中鹿 亘,松本 光春
    • 学会等名
      日本音響学会2020年秋季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] マルチタスクモデルを用いたdisentangleな学習による楽器音変換2020

    • 著者名/発表者名
      荒川 賢也,岸田 拓也,中鹿 亘
    • 学会等名
      日本音響学会2020年春季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] Speech chain を模倣したボルツマンマシンによるワンショット多対多声質変換の検討2020

    • 著者名/発表者名
      岸田 拓也,中鹿 亘
    • 学会等名
      日本音響学会2020年春季研究発表会
    • 関連する報告書
      2020 実績報告書
  • [学会発表] 適応型RBMを用いた音声情報の分離による話者と感情の同時変換2020

    • 著者名/発表者名
      塚本伸,岸田拓也,中鹿亘
    • 学会等名
      日本音響学会2020年春季研究発表会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] マルチタスクモデルを用いたdisentangleな学習による楽器音変換2020

    • 著者名/発表者名
      荒川賢也, 岸田拓也, 中鹿亘
    • 学会等名
      日本音響学会2020年春季研究発表会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] Speech chainを模倣したボルツマンマシンによるワンショット多対多声質変換の検討2020

    • 著者名/発表者名
      岸田拓也,中鹿亘
    • 学会等名
      日本音響学会2020年春季研究発表会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] STFT spectral loss for training a neural speech waveform model2019

    • 著者名/発表者名
      Shinji Takaki, Toru Nakashika, Xin Wang, Junichi Yamagishi
    • 学会等名
      ICASSP2019
    • 関連する報告書
      2019 実施状況報告書
    • 国際学会
  • [学会発表] 適応型RBMを用いたノンパラレル感情音声変換2019

    • 著者名/発表者名
      塚本伸,岸田拓也,中鹿亘
    • 学会等名
      日本音響学会2019年秋季研究発表会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] Fader Networksを用いた楽器音変換2019

    • 著者名/発表者名
      荒川賢也, 岸田拓也, 中鹿亘
    • 学会等名
      日本音響学会2019年秋季研究発表会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] 複素VAE: 音声の複素スペクトルを直接表現する新しい変分自己符号化器2019

    • 著者名/発表者名
      中鹿亘
    • 学会等名
      日本音響学会2019年秋季研究発表会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] Speech chain VC: 音声コミュニケーションの言語-生理-音響連鎖を考慮する声質変換2019

    • 著者名/発表者名
      岸田拓也,中鹿亘
    • 学会等名
      日本音響学会2019年秋季研究発表会
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] VAEを用いた多対多声質変換における音素識別制約の検討2019

    • 著者名/発表者名
      木庭慶人, 中鹿亘
    • 学会等名
      日本音響学会2019年春季研究発表会
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] セミパラレル手法による適応型 RBM を用いた声質変換の性能改善2019

    • 著者名/発表者名
      塚本伸, 中鹿亘
    • 学会等名
      日本音響学会2019年春季研究発表会
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] パラレル制約付きVAEを用いた未知話者声質変換の検討2019

    • 著者名/発表者名
      大西弘太郎, 中鹿亘
    • 学会等名
      日本音響学会2019年春季研究発表会
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] スペクトル系列誤差に基づくDNN音声波形モデルの学習2019

    • 著者名/発表者名
      高木信二, 中鹿亘, 山岸順一
    • 学会等名
      日本音響学会2019年春季研究発表会
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] 音声スペクトル系列の自己回帰性を考慮した複素RBMの拡張2019

    • 著者名/発表者名
      中鹿亘, 高木信二, 山岸順一
    • 学会等名
      日本音響学会2019年春季研究発表会
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] DNN-based Speech Synthesis for Small Data Sets Considering Bidirectional Speech-Text Conversion2018

    • 著者名/発表者名
      Kentaro Sone, and Toru Nakashika
    • 学会等名
      Interspeech 2018
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] LSTBM: A Novel Sequence Representation of Speech Spectra Using Restricted Boltzmann Machine with Long Short-Term Memory2018

    • 著者名/発表者名
      Toru Nakashika
    • 学会等名
      Interspeech2018
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] Bidirectional Voice Conversion Based on Joint Training Using Gaussian-Gaussian Deep Relational Model2018

    • 著者名/発表者名
      Kentaro Sone, Shinji Takaki, and Toru Nakashika
    • 学会等名
      Odyssey 2018
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] Parallel-Data-Free Dictionary Learning for Voice Conversion Using Non-Negative Tucker Decomposition2018

    • 著者名/発表者名
      Yuki Takashima, Hajime Yano, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
    • 学会等名
      ICASSP2018
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [学会発表] DRMを用いた唇動画像と音声の双方向変換2018

    • 著者名/発表者名
      塚本伸, 中鹿亘
    • 学会等名
      音学シンポジウム2018
    • 関連する報告書
      2018 実施状況報告書
    • 国際学会
  • [産業財産権] 符号化装置、復号装置、パラメータ学習装置、およびプログラム2019

    • 発明者名
      中鹿亘
    • 権利者名
      中鹿亘
    • 産業財産権種類
      特許
    • 産業財産権番号
      2019-150516
    • 出願年月日
      2019
    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2018-04-23   更新日: 2022-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi