2020 年度研究成果報告書

音声中の感情と話者性を制御できる拡張ボルツマン分布に基づく確率モデル

研究課題

PDF

研究課題/領域番号	18K18069
研究種目	若手研究
配分区分	基金
審査区分	小区分61010:知覚情報処理関連
研究機関	電気通信大学
研究代表者	中鹿亘電気通信大学, 大学院情報理工学研究科, 准教授 (90749920)
研究期間 (年度)	2018-04-01 – 2021-03-31
キーワード	音声信号処理 / 機械学習 / 確率・統計 / 声質変換 / 感情音声変換
研究成果の概要	音声信号処理分野において、話者認識と感情認識など、異なる複数のタスクを同時に実現する手法は確立されていない。本研究では、様々な因子間の関係性を自由に表現できる性質を持つボルツマンマシンに着目し、話者認識・感情認識・話者変換・感情変換を同時に実現する手法を検討し、その有効性について評価した。実験結果により、たった一つのボルツマンマシンを用いて話者認識・感情認識・話者変換・感情変換が実現できることが分かり、また、話者のみ、感情のみを表現したあるボルツマンマシンと比べて同時に話者・感情を表現したボルツマンマシンの方が高い精度で認識・変換が可能であることが明らかとなった。
自由記述の分野	音声信号処理
研究成果の学術的意義や社会的意義	本研究の実験結果は、エネルギー関数を適切に設計することで様々な特徴因子間の関係性を紐解くボルツマンマシンの有効性を示唆しており、意義のある研究成果であると考える。また副次的な研究成果として、複素数データを直接表現する変分オートエンコーダや、音声コミュニケーションにおける言語・生理・音響の連鎖を考慮したボルツマンマシンを用いた声質変換・音声認識のマルチタスク学習など、新たな手法の着想や知見を得ることもできた。