本研究では,ビデオチャット・音声チャット・テキストチャットという3種類のオンライン対話ごとに感情推定モデルを構築する。その中でも今年度は音声チャット場面における感情推定モデルの構築を行った。 マルチモーダルオンライン対話データから音声チャットによって対話を行っている18名のデータを使用した。マルチモーダルオンライン対話データに含まれる感情3次元の評価値を正解とし,計測した話者の自律神経系反応(心拍・発汗),対話中の音声信号および表情画像から3次元の感情(快ー不快,覚醒ー睡眠,支配ー服従)を推定するモデルを構築し,その検証を行った。 モダリティごとにCNN-LSTMのニューラルネットワークを構築し,まずはCNNで各モダリティの特徴量を抽出したのち,その後に続くLSTM層で各特徴量の時間変化を捉えて感情の推定した。使用したモダリティはHR(R-R間隔)・SCL・表情・音声の4種類ある。HR・SCL・音声の各モデルでは,それぞれの信号を一次元CNNにより直接畳み込んだ。表情モデルでは,映像から顔の部分だけを抽出して,96×96ピクセルにリサイズしたカラー画像を使用し,CNNにはResNet50のネットワークと同等のものを使用した。LSTMのシーケンスの長さはいずれのモデルも200とした。ユニモーダルモデルの出力を統合する方法として,CNNからの出力を結合するfeature level fusionとLSTMから出力される情報を結合するdecision level fusionを実施し比較した。 その結果,feature level fusionでは平均二乗誤差(MSE)が快ー不快で0.101,覚醒ー睡眠で0.205,支配ー服従で0.228となった。また,decision level fusionではMSEが快ー不快で0.121,覚醒ー睡眠で0.161,支配ー服従で0.164となった。
|