音声符号化技術と通信技術を利用した音声のみによるコミュニケーションでは、視覚情報等の利用ができないために、感情・意図・態度・個人性などの非言語情報を正確に伝えることが困難となる。本研究では、非言語情報と音声の音響特徴量との関係をモデル化できるようなニューラルネットワークを考案し、音声の非言語情報における個人性や感情をを変換・強調する手法について検討した。ボルツマンマシンやその関連手法を利用して、モデルの学習に用いていない話者間で個人性の変換が可能な手法や、個人性と感情を同時に変換する手法、声質を因子に分解して因子の操作によって声質の印象を変換する手法などを提案することができた。
|