研究課題/領域番号 |
18K18069
|
研究機関 | 電気通信大学 |
研究代表者 |
中鹿 亘 電気通信大学, 大学院情報理工学研究科, 助教 (90749920)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 音声信号処理 / 機械学習 / 確率・統計 / 感情変換 / 声質変換 |
研究実績の概要 |
本研究では独自に拡張するボルツマン分布に基づき、音声中の発話者や発話内容、発話者の感情などを同時に推定するフレームワークについて検討する。令和元年度では、主に1)適応型制限ボルツマンマシン(ARBM)を用いた感情・話者変換に関する評価実験、2)前年度に検証した複素RBMをベースとした話者・感情変換の予備検証、3)複素変分オートエンコーダ(複素VAE)の新規提案を行った。実験1)ではまず、前年度に予備実験として行なっていたARBMを用いた同一話者による感情変換手法を改善し、平静音声から喜び・怒り・悲しみ音声へ変換したところ、いずれの感情においてもメルケプストラム距離が改善された。また、話者識別素子ベクトルと変換行列をモデルに追加(Multi-Domain ARBM)することで、音声中の感情と話者性を同時に変換できることも確認できた。実験2)ではさらに、実数値の音響特徴量(メルケプストラム)の代わりに、複素スペクトルを直接入力させ、ボコーダを使用しないで変換音声を合成するモデル(複素ARBM)について検証した。しかし、複素スペクトルはメルケプストラムと異なり感情・話者の違いを線形的に表現することは不十分であり、正しく変換させることが困難であることが判明した。そこで実験3)として、複素数データを直接入力し、非線形変換できる複素VAEを新たに提案・実装した。簡単な予備実験として、複素VAEで1話者音声の複素スペクトルを分析・合成し、高品質な復元音声が得られることが確認できた。令和元年度では上記研究に関連して、論文誌1件、国際会議1件、国内研究会7件の研究発表と、1件の特許出願を行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
前年度のARBMを用いた感情音声変換に関する予備実験では主観的に十分満足のいく品質の音声が得られなかったが、本年度では慶應義塾大学研究用感情音声データベース(Keio-ESD)を用いた感情音声データの増量と、基本周波数の動的特徴量およびフレーズ単位特徴量を加えることで変換精度の向上が確認できた。提案手法によって平静音声から喜び・怒り・悲しみへ変換したところ、客観評価・主観評価ともに変換前と比べ、それぞれの感情に対する同定率が向上した。さらに、話者識別素子ベクトルと、話者変換行列をモデルに追加したMulti-Domain ARBMを新たに提案、定義、実装し、評価実験において音声中の感情と話者性を同時に変換できることを確認した。更に、合成時におけるボコーダ特有の歪みを軽減するため、複素スペクトルを直接入力・変換する複素ARBMを定式化、実装および構築を行った。以上より、令和元年度までに計画していた研究内容を実施することができ、概ね計画通り順調に進展していると言える。その中で、複素スペクトルはこれまで用いていたメルケプストラムと異なり、感情や話者を線形的に変換させることが困難であることが判明したため、解決方法の1つとして、非線形的に変換させることのできる変分オートエンコーダ(VAE)を複素数拡張した新しい生成モデル(複素VAE)を新たに提案し、音声再構成実験を通してモデルの動作を確認した。具体的には、単一話者による50発話音声を用いて複素VAEを学習させ、評価用データを入力・再構成し、従来のVAEと比較して、客観評価指標であるPESQにて高品質な音声が得られることを確認した。
|
今後の研究の推進方策 |
前述のように、実数ドメインでの感情・話者の同時変換は達成することができたが、複素スペクトルを用いた場合、線形変換に基づいた複素ARBMでは変換精度に限界がある。その解決策の1つとして、令和元年度では、複素数の特徴量変換が可能な、新しい生成モデルである複素VAEを提案し、簡単な動作確認を行った。令和2年度ではまず、複素VAEを用いて実際に話者・感情変換し、性能評価する計画である。具体的には、複数話者・複数感情からなる音声データコーパスを用いて、複素スペクトルを入力するエンコーダと、エンコーダが出力する複素潜在変数と話者・感情の指示ベクトルを連結したベクトルを入力し複素スペクトルを出力するデコーダで構成される複素VAEを学習させ、目的の話者・感情の指示ベクトルを用いて所望の話者・感情を持つ音声が得られることを確認する。また、ボルツマンマシンに基づく、複素数の特徴量を非線形に変換可能な別の生成モデル(複素連想記憶モデルと呼ぶことにする)についても現在検討している。複素連想記憶モデルでは、連想記憶素子が複素特徴量ベクトル(複素スペクトル)、話者・感情の指示ベクトル、および音韻を示すと期待する潜在変数と接続され、与えられた複素スペクトルから連想記憶素子を通じて推定した潜在変数と、指定した(目的の)話者・感情指示ベクトルから再度推定した連想記憶素子から複素スペクトルを推定ことで、目的の話者・感情音声が得られると考えられる。この潜在変数の推定、連想記憶素子の推定には非線形関数が用いられるため、話者・感情に関して複素スペクトルを非線形に変換することができると期待される。令和2年度では複素VAEによる変換実験と並行して、複素連想記憶モデルの基礎実験・変換実験を実施する予定である。
|
次年度使用額が生じた理由 |
当初購入や収録を予定していた感情音声コーパスに関する購入費が少なく済んだこと、また年度末に発生した新型コロナウィルスの影響により、予定していた学会出張がキャンセルになったため。翌年度は、複数話者・複数感情を含んだ大量データを用いた複素VAEによる音声変換実験を実施するため、サーバ・GPUを追加購入する。
|