Project/Area Number |
21K12075
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Kogakuin University |
Principal Investigator |
大和 淳司 工学院大学, 情報学部(情報工学部), 教授 (80396192)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 対話意欲 / 遠隔会議 / 顔画像認識 / facial action unit / 対話ロボット / 対話システム / マルチモーダル / モーションキャプチャ / 動作分析 / 非言語行動 / 対話分析 / 発話意欲 / HRI |
Outline of Research at the Start |
対話システム、対話ロボットを複数台化することで長いターン数の対話における対話感向上や対話破綻の回避・緩和を効果的に行う研究が進んでいる。本件提案では、こうしたエージェントの複数台化に伴う発話内容の自由度拡大による対話意欲向上や対話破綻回避・緩和の効果を客観的・定量的に分析し、対話エージェントとユーザ双方の様々な条件との関連を明確化する。ユーザ個々人の性格特性やコミュニケーションスキルとの関連についても分析する。これらの結果に基づき、複数台化が効果的に機能するための条件を明らかにし、ユーザが対話したくなる対話ロボットの実現に貢献する。
|
Outline of Annual Research Achievements |
今年度は、対話時の対話意欲推定、顔画像からの同意・不同意判別のための特徴量、顔画像からの理解度推定のための特徴量の3つについて実験的に検討を進めた。 対話意欲推定:これまで発話内容の音声・言語的な情報と非言語情報をあわせたマルチモーダルな情報から、対話意欲を推定することを目指して研究を進めてきた。今年度は対話者の身体動作から得られる特徴がどのように利用可能か、検討を進めた。質問紙で得られたラベルを正解とする場合、姿勢傾斜角の角速度、右手先速度が特に強い相関があることが確認できた。 顔場像からの同意・不同意判別:会議参加者の同意不同意は、多人数のオンライン会議では小さな顔画像が多数並ぶため、即時かつ並列しての処理は人間には困難で、会議の場全体の賛否情報の一覧把握は難しい。これを自動判別して会議参加者やファシリテータに適切な可視化により提供することはオンライン会議を一層円滑かつ効率的に運用するために大いに貢献できるものと考える。そのための顔画像の特徴選択について検討を行った。全体的な傾向として同意の際に大きな値を持つAUは口周辺に多く、一方不同意時には目周辺のAUが多いことが確認できた。また、個人差についても発見がありこれを利用した識別精度向上が可能なことを確認した。 顔画像からの理解度推定:上記同意不同意判定と同様、理解度の推定と可視化も遠隔会議においては重要な情報となる。この自動推定のための特徴選択を上記と同様の枠組みで行った。特徴量重要度に基づき一部のAUを選択することで7割以上の正解率を得た。またこの際、個人差が大きく出る特定の実験参加者があり、ここからAUの向きの逆転現象を発見し、今後の精度向上のため大規模化した実験の必要性が示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
・対話時の対話意欲推定については、具体的には、対話時の人物映像から、StridedTransformer-Pose3Dを利用し、各関節位置を抽出し、3次元空間内での関節角度を求めた。多くの姿勢情報から、姿勢傾斜角、頭部傾斜角、右手先速度が、主観的な対話意欲との相関が高いことから詳細分析対象とした。得られた結果から、3D pose 復元概ね必要な精度で姿勢計測は実現できたと考えられる。一方正解ラベルについては、対話終了時の質問紙法により得られることから時間分解能が極めて低い情報にとどまっている。そこで、時間分解のが高い連続的に得られる情報源が今後求められる。 ・顔画像からの同意・不同意判別のための特徴量について、今年度はfacial action unitのAU値をopenface ライブラリを使用して特徴量の候補とし、xgboostによる2クラス識別器を構成する際の特徴量重要度を元に組み合わせを工夫して上位の一部のAUを選定した。この際個人差により、目元に特徴が出やすいグループと口元に特徴が出やすいグループに分離して識別器を構成し学習を行うことで精度向上ができることが確認された。実験参加者の特性に合わせた識別器を使用することが有効であることが示唆された。今後さらに実験規模を拡大してこの個人差に関する発見を活用していく必要がある。 ・顔画像からの理解度推定のための特徴量について、本来は会議時の顔画像を扱うべきであるが、理解度の正解ラベルを得ることが難しいため、Webベースのプログラミング課題を解く際の顔画像を使用した。catboostを用いた2クラス判別機を構成し、そこでの特徴量重要度に基づく選択を行った。ここでも特定の参加者のみが特徴量の大小のレベルで逆転現象を起こしていることが発見された。今後人数を拡大して、特定のタイプ分類が有効であるのか、更に調査検討を進めていく。
|
Strategy for Future Research Activity |
上記の通り、人数を拡大してさらに実験を重ね、個人差のありようについて理解を深め、この活用方法を具体的に検討していく。実験にあたっては、クラウドソーシングを用いて効率的に人数拡大を行うことを計画している。 これらの結果については年内に発表を予定する。発表先の候補として12月HCGシンポジウムでの発表を目標とし、実験準備中である。
|