本研究課題ではまず,音声情報からユーザ状態の推定を行う手法を検討した.音声情報によるユーザ状態推定技術は音声感情認識の分野で盛んに検討が行われている.ユーザ状態推定の分野では一般的に蓄積されたデータが少なく,深層学習技術の適用が難しいという問題がある.これに対して本課題では,感情音声合成を用いてデータを増強することで音声感情認性能を従来よりも大幅に改善した.SMOTEに基づくデータ拡張と比較することで,特徴量空間でのデータ増強よりもサンプルベースでのデータ増強が感情認識に有用であることを示した.また,近年注目を集めるアテンション機構を有するBLSTMに対してセグメント特徴量の導入とネットワークのマルチストリーム化を行うことで音声感情認識精度をさらに向上させた.結果より,系列モデルにおいても音声の超分節的な特徴とその時間変動を考慮すること,特徴の異なる識別子に対して独立な注意重みを学習することが識別性能の向上に有用であることを明らかにした.最終的な識別精度は73.4%であり,これは人間による判別に肉薄する結果である. また,同時に対話型システムを日常的に使うための対話制御技術に関しても検討を行った.本研究課題では,ユーザが利用を重ねるにつれてだんだんと変化するシステムの構築を目指し,特にユーザとの関係性を考慮した対話に着目した.実際に構築した対話システムを用いた対話実験では,機械と人間との対話においても相互に自己開示を行うことでユーザの評価を向上できることを明らかにした.また,我々が構築した人間同士のマルチモーダル雑談コーパスに関して非言語情報・言語情報の分析を行うことで,関係性の段階による対話戦略の違いを明らかにした.今後は,分析結果に基づく対話戦略を対話システムに実装することでその効果の検証を行う予定である.
|