研究概要 |
音声には大きく分けて言語情報(何を話しているか)と非言語情報(感情,個人性等)が含まれる.音声コミュニケーションではこれら両方が送受されている,このため,音声対話の精緻な解析のためにはこれら双方を考慮する必要がある.特に人-人の対話解析に基づいて人-機械のインターフェースを構築しようとする場合,言語情報(音声認識)だけではなく,話し手の感情がどのように変化しているかという情報(感情認識)は重要な要素となる.本研究では,感情を複数の基本因子ベクトルの合成ベクトルとして表現するという新しい発想のもと,研究代表者らが提案している音声中の感情知覚モデルを感情音声認識に適用し,感情が複数含まれる音声からそれぞれの感情の程度までを推定する手法を確立することを目的とする. このために1年目は,感情音声知覚モデルの認識システムへの移行のための整備を行った.具体的には,感情音声合成で用いていた三層構造感情知覚モデルを,表現豊かな音声の特質を扱う目的で,感情空間の表現として感情基本因子を付け加えることにより四階層構造(音響特徴量,温床表現語群,感情基本因子,感情)とした.感情基本因子としては,"怒り","恐れ","喜び"などのラベルではなく,感情の印象を表現できるActivation-Evaluation-Dominanceの3次元を採用した.この結果として,感情を複数の基本因子ベクトルの合成ベクトルとしてより簡単に表現できるようになり,認識システムの構築が容易となった.
|