本課題ではまず,音響的非言語シグナルからユーザ状態の推定を行う手法を検討した.感情音声合成を用いてデータを増強することで音声感情認性能が従来よりも大幅に改善することを示した.また,近年注目を集める系列モデルに対してセグメント特徴量の導入とネットワークのマルチストリーム化を行うことでさらに性能を向上させた.最終的な識別精度は73.4%であり,これは人間による判別に肉薄する結果である.また,対話型システムを継続的に使うための対話制御技術に関しても検討を行った.人間同士のマルチモーダル雑談コーパスを用いて言語・非言語情報の分析を行うことで,関係性の段階による対話戦略の違いを明らかにした.
|