最終年度では、これまでの感情・話者変換における拡張ボルツマンマシンに関する研究のまとめおよび今後の発展可能性に関する調査と学外発表に注力した。具体的には1)前年度に提案した複素変分オートエンコーダ(複素VAE)について更なる評価実験を実施し、音声信号処理に関する世界最大規模の国際会議にて発表、2)前年度に実施した複数ドメイン適応型制限ボルツマンマシンを用いた感情・話者変換を整理して同国際会議にて発表、3)拡張ボルツマンマシンの他の可能性として音韻情報を明示的に考慮した声質変換モデル:speech-chainボルツマンマシンを新たに提案し、英語論文誌を投稿した。 本研究課題では、これまで音声認識と話者認識など、異なる複数のタスクを同時に実現する手法が確立されていない中、様々な因子間の関係性を自由に表現できる性質を持つボルツマンマシンに着目し、話者認識・感情認識・音声認識を同時に実現する手法を検討し、その有効性について評価した。また同時に生成モデルであるボルツマンマシンは話者や感情ラベルを差し替えて話者変換や感情変換に応用することもでき、これらのタスクにおける有効性についても定量的に評価した。これらの実験結果により、たった一つのボルツマンマシンを用いて話者認識・感情認識・話者変換・感情変換がある程度の精度で実現できることが示された。この結果は、エネルギー関数を適切に設計することで様々な特徴因子間の関係性を紐解くボルツマンマシンの有効性を示唆しており、意義のある研究成果であると考える。また副次的な研究成果として、複素数データを直接表現する変分オートエンコーダや、音声コミュニケーションにおける言語・生理・音響の連鎖を考慮したボルツマンマシンを用いた声質変換・音声認識のマルチタスク学習など、新たな手法の着想や知見を得ることもできた。
|