2014 Fiscal Year Annual Research Report
未習熟ユーザを補助するマルチモーダル対話システムの研究
Project/Area Number |
14J03989
|
Research Institution | Tohoku University |
Principal Investigator |
千葉 祐弥 東北大学, 工学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2014-04-25 – 2016-03-31
|
Keywords | マルチモーダル情報処理 / 音声対話システム / ユーザ状態推定 |
Outline of Annual Research Achievements |
本研究では音声画像情報によるユーザ状態の推定を目標とする。本年度は、抽出された特徴量をk-means法によってクラスタリングし、Support Vector Machineによる識別を行う手法について提案し、以前までの問題であった手動でのラベル付けの問題の解決を図った。その結果、特にそれぞれのモダリティの特徴量をクラスタ化し別々のカーネルによってモデル化するMultiple Kernel Learningによる手法で識別を行った場合に最も良い性能が得られ、72.0%の性能で対象とするユーザの状態を識別できることを確かめた。また、リアルタイムでユーザ状態の識別を行うため、フレームごとにユーザの状態を識別する枠組みを提案した。結果からシステムの発話終了から約6秒程度で70%程度の精度でユーザの状態を識別できることを確かめた。 また、対話システムが初心者ユーザを適切に補助するためには、ユーザの情報を適切に収集する必要があり、システムはユーザの対話意欲を考慮して質問や話題の選択を行えることが望ましいと考え、新たなユーザの状態として、ユーザはシステムの質問に対して「話したいと思っているか」どうか(ユーザの対話意欲)を定義しデータの分析を実施した。特徴量として対話中の音声F0の発話毎の平均値、音声の品詞情報及び形態素数、ユーザの身振りと表情の変動量に関して分析を行い、特に顔の変動量に対してユーザの状態と被験者をラベルとした二元配置の分散分析を行ったときに5%の有意差が得られた。実際に上述の特徴量を使ってSVMによる識別を行ったところ、78.4%の精度でユーザの対話意欲の高低を識別できることを確かめた。これは人間による評価とほぼ同程度の一致率であり、人間並の精度で自動推定が可能であることが示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
対話システムのプロンプトに対してユーザが戸惑っているのか、考えているのかの識別は上述した手法によって自動推定及び逐次推定が行えることが確かめられたが、当初の研究計画に含まれていたマルチモーダル対話システムへの実装はまだ行えていないため、次年度の課題とする。また、新たなユーザの状態としてユーザの対話意欲の識別を導入し、自動識別が人間と同程度の精度で行えるとことを確認したが、対話データの被験者数が少ないこと、人間同士の対話を分析対象としているため、対話システムとの対話においても分析した特徴量が有効かどうかの確証がないといった理由から、更なる検討が必要であると考えられる。そのため、対話収集の被験者を増強してデータを収集し、特徴量の詳細な分析が必要である。また、模擬的な対話システムを作成し、人間同士の対話と異なる点に関しても分析する必要がある。
|
Strategy for Future Research Activity |
システムのプロンプトに対してユーザが戸惑っているか、考えているかを識別する課題に関しては自動推定及び逐次推定に関する研究結果がまとまったので、論文誌への投稿を行う(平成27年度前半)。また、平成27年度後半には実際にマルチモーダル情報を利用した対話システムの実装を行い、ユーザ状態推定の枠組みを導入した場合のユーザビリティの評価についての検討を目指す。一方で、新たに定義したユーザ状態である、ユーザの対話意欲に関しては人間同士の対話データの増強を行い主張の強化、マルチモーダル情報の詳細な分析を行う(平成27年度前半)。また、模擬的な対話システムと人間との対話データを収集することで人間同士の対話との差異を分析し、自動識別を行う。同時に、収集した対話データを利用することで、マルチモーダル情報によるユーザ状態の識別手法を既存の言語情報を利用した対話制御の方法論に応用することで、対話システムのユーザビリティの向上を目指す(平成27年度後半)。
|