2018 年度実施状況報告書

音声中の感情と話者性を制御できる拡張ボルツマン分布に基づく確率モデル

研究課題

研究課題/領域番号	18K18069
研究機関	電気通信大学
研究代表者	中鹿亘電気通信大学, 大学院情報理工学研究科, 助教 (90749920)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	音声信号処理 / 機械学習 / 確率・統計 / 感情変換 / 声質変換
研究実績の概要	本研究では独自に拡張するボルツマン分布に基づき、音声中の発話者や発話内容、発話者の感情などを同時に推定するフレームワークについて検討する。平成30年度では、まず音声モデリングの精度向上の基礎実験として、制限ボルツマンマシンを独自に拡張したモデルを３つ新たに提案し、それぞれについて定式化、モデル実装、モデル構築、および評価実験を行った。１つ目は音声の複素スペクトルを直接表現する複素制限ボルツマンマシンであり、従来の実数値を表現する制限ボルツマンマシンと比べて高い精度で音声のエンコード（符号化）とデコード（復号化）が可能であることを実験的に示した。さらに、複素制限ボルツマンマシンに対して自己回帰項を追加したモデル（自己回帰複素制限ボルツマンマシン）を用いて複素スペクトル系列を表現する手法を提案し、従来よりも少ない数の隠れ素子数で同等の性能を持つことを示した。また最後に、実系列データ中の長期的な依存関係を捉えるため、長・短記憶構造を持つ制限ボルツマンマシンの拡張モデル：LSTBM（long-short term Boltzmann memory）を提案した。これはRNN (recurrent neural network)の一種であるLSTM (long-short term memory)に着想を得たものであり、LSTMにおいて各隠れ素子が確率的に発火するモデルである（つまり、LSTMを包含する表現）であることを示した。実験では従来の制限ボルツマンマシンや単純な系列表現拡張であるコンディショナル制限ボルツマンマシンと比較して大幅な精度向上が見られ、本研究に関して2019年日本音響学会粟屋潔学術奨励賞を受賞した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由平成30年度では論文誌1件、国際会議3件、国内研究会7件、解説記事1件の研究発表と、学術奨励賞1件を受賞し、対外的な進捗状況としては概ね良好である。研究の進捗状況としては、基礎モデルの検証が重要であると判断し、当初平成31年度と平成32年度に実施予定であったボルツマンマシンの複素拡張と系列表現拡張について基本的な定式化と基礎的な動作確認を行った。また、未発表であるが適応型制限ボルツマンマシンを用いた感情変換に関する基礎的な実験を実施した。具体的には、発話者を固定して喜怒哀楽平静の５感情を含む感情音声データセットを用い、32次元のメルケプストラム音響特徴量を可視素子、5次元の感情を示すone-hotベクトルを適応素子として隠れ素子数32のボルツマンマシンを訓練し、入力と異なる感情素子を与えて感情変換を試みた。この結果、入力音声の感情とあまり変わらない音声が得られた。基本周波数などの韻律情報が特定の感情を示す重要な特徴量であると考え、続いて基本周波数とその動的特徴量を可視素子に加えて学習させたところ、多少変化が見られたが、自然音声とかけ離れた音声が得られた。
今後の研究の推進方策	前述のように、同一話者による感情音声変換の基本的な実験を実施したところ、主観的に十分満足のいく品質の音声が得られなかった。この主な原因として、1) 使用した音声データセットは各感情ごとに20単語の音声しか含まれないため、適切に学習させるためには不十分な数であること、2) 韻律情報を表す特徴量として基本周波数のみでは不十分であること、3) 適応型制限ボルツマンマシンでは各感情に対してスペクトル基底の単純な線形変換で感情音声を表現しているが、そのモデル化が不十分であることなどが考えられる。それぞれに対する今後の研究方針として、1) 十分な量の音声データセットを利用する（例えば東京工科大学のプロジェクトが公開している感情評定値付きオンラインゲーム音声チャットコーパスなど）またはプロのアクターを招聘して感情音声を録音する、2) 基本周波数のWavelet特徴量を用いることで基本周波数の時間変化を細かく表現する、3) モデルを多層化したり、変分オートエンコーダを利用するなど非線型変換に基づく処理を加えることを検討している。また、上記によって感情音声変換を動作確認した後、複数話者を用いた話者と感情の同時変換、複素制限ボルツマンマシンやLSTBMによる精度向上を試みる。
次年度使用額が生じた理由	概ね計上した通りに助成金を使用したが，他研究助成金により主観評価実験に掛かる経費（人件費・謝金）を賄うことができたため，人件費・謝金が削減された。この差額は翌年度以降の主観評価実験，物品購入費用として使用する予定である。

研究成果
(11件)

すべて 2019 2018

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (10件) (うち国際学会 10件)

[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019
- 著者名/発表者名
  Nakashika Toru、Takaki Shinji、Yamagishi Junichi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 27 ページ: 244～254
- DOI
  10.1109/TASLP.2018.2877465
- 査読あり
[学会発表] VAEを用いた多対多声質変換における音素識別制約の検討2019
- 著者名/発表者名
  木庭慶人, 中鹿亘
- 学会等名
  日本音響学会2019年春季研究発表会
- 国際学会
[学会発表] セミパラレル手法による適応型 RBM を用いた声質変換の性能改善2019
- 著者名/発表者名
  塚本伸, 中鹿亘
- 学会等名
  日本音響学会2019年春季研究発表会
- 国際学会
[学会発表] パラレル制約付きVAEを用いた未知話者声質変換の検討2019
- 著者名/発表者名
  大西弘太郎, 中鹿亘
- 学会等名
  日本音響学会2019年春季研究発表会
- 国際学会
[学会発表] スペクトル系列誤差に基づくDNN音声波形モデルの学習2019
- 著者名/発表者名
  高木信二, 中鹿亘, 山岸順一
- 学会等名
  日本音響学会2019年春季研究発表会
- 国際学会
[学会発表] 音声スペクトル系列の自己回帰性を考慮した複素RBMの拡張2019
- 著者名/発表者名
  中鹿亘, 高木信二, 山岸順一
- 学会等名
  日本音響学会2019年春季研究発表会
- 国際学会
[学会発表] DNN-based Speech Synthesis for Small Data Sets Considering Bidirectional Speech-Text Conversion2018
- 著者名/発表者名
  Kentaro Sone, and Toru Nakashika
- 学会等名
  Interspeech 2018
- 国際学会
[学会発表] LSTBM: A Novel Sequence Representation of Speech Spectra Using Restricted Boltzmann Machine with Long Short-Term Memory2018
- 著者名/発表者名
  Toru Nakashika
- 学会等名
  Interspeech2018
- 国際学会
[学会発表] Bidirectional Voice Conversion Based on Joint Training Using Gaussian-Gaussian Deep Relational Model2018
- 著者名/発表者名
  Kentaro Sone, Shinji Takaki, and Toru Nakashika
- 学会等名
  Odyssey 2018
- 国際学会
[学会発表] Parallel-Data-Free Dictionary Learning for Voice Conversion Using Non-Negative Tucker Decomposition2018
- 著者名/発表者名
  Yuki Takashima, Hajime Yano, Toru Nakashika, Tetsuya Takiguchi, Yasuo Ariki
- 学会等名
  ICASSP2018
- 国際学会
[学会発表] DRMを用いた唇動画像と音声の双方向変換2018
- 著者名/発表者名
  塚本伸, 中鹿亘
- 学会等名
  音学シンポジウム2018
- 国際学会

2018 年度 実施状況報告書

音声中の感情と話者性を制御できる拡張ボルツマン分布に基づく確率モデル

研究代表者

中鹿 亘 電気通信大学, 大学院情報理工学研究科, 助教 (90749920)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Complex-Valued Restricted Boltzmann Machine for Speaker-Dependent Speech Parameterization From Complex Spectra2019

著者名/発表者名

雑誌名

DOI

[学会発表] VAEを用いた多対多声質変換における音素識別制約の検討2019

著者名/発表者名

学会等名

[学会発表] セミパラレル手法による適応型 RBM を用いた声質変換の性能改善2019

著者名/発表者名

学会等名

[学会発表] パラレル制約付きVAEを用いた未知話者声質変換の検討2019

著者名/発表者名

学会等名

[学会発表] スペクトル系列誤差に基づくDNN音声波形モデルの学習2019

著者名/発表者名

学会等名

[学会発表] 音声スペクトル系列の自己回帰性を考慮した複素RBMの拡張2019

著者名/発表者名

学会等名

[学会発表] DNN-based Speech Synthesis for Small Data Sets Considering Bidirectional Speech-Text Conversion2018

著者名/発表者名

学会等名

[学会発表] LSTBM: A Novel Sequence Representation of Speech Spectra Using Restricted Boltzmann Machine with Long Short-Term Memory2018

著者名/発表者名

学会等名

[学会発表] Bidirectional Voice Conversion Based on Joint Training Using Gaussian-Gaussian Deep Relational Model2018

著者名/発表者名

学会等名

[学会発表] Parallel-Data-Free Dictionary Learning for Voice Conversion Using Non-Negative Tucker Decomposition2018

著者名/発表者名

学会等名

[学会発表] DRMを用いた唇動画像と音声の双方向変換2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

中鹿亘電気通信大学, 大学院情報理工学研究科, 助教 (90749920)