研究実績の概要 |
平成27年度より,ユーザを補助する対話システムに有用なユーザの状態として,システムが提示した話題に関するユーザの対話意欲を定義し,人間同士のインタビュー対話を用いて識別に有効なマルチモーダル特徴量の分析を行っている. 以前の検討では,音声データの収録に関して問題があったため,7名の人間同士のインタビュー対話データを新たに収集し,マルチモーダル特徴量を抽出した.分析では,昨年度同様,言語情報として回答者の発話の書き起こしから得られた品詞情報,音声情報として基本周波数 (F0)およびパワー,画像情報として表情と身振りの変動を採用した.結果から,新しいデータセットにおいてもユーザの表情と身振りの変動量,対話中のユーザ発話のF0の変動幅や最大値,最小値などが対話意欲の識別に有効であることが明らかになり,これらの特徴量を用いて対話意欲の自動推定を実施した.結果として,音声画像特徴量を用いた場合に Leave-one-out 条件で 80.4% ,Subjective-open条件で 77.1% の識別精度を達成した.これは事前に調査をおこなった人間による判断と同程度かそれ以上の識別精度である.これらの成果は1件の査読付き国際会議,2件の国内学会での発表を行っている.また,ここまでの検討では人間同士のインタビュー対話を利用していることから,機械と人間との対話においても同様に対話意欲が表出されるかどうかは不明瞭であるため,特徴量及び識別手法の有効性を確かめる目的で,Wizard of Oz (WOZ)法による対話データの収録を行った.5 名の実験参加者の対話によって集計されたアンケートの分析から, 1)興味と対話意欲の評定は必ずしも等しくないこと, 2)機械との対話では人間同士の対話よりも対話意欲が表出されにくいことが示唆されたが,実際の識別実験までは行えず,課題として残された.こちらの検討に関しては1件の国内学会での発表を行った.
|