2023 Fiscal Year Annual Research Report

階層型視覚的コモンセンスを考慮した動画質問応答

Research Project

Project/Area Number	22KJ2914
Allocation Type	Multi-year Fund
Research Institution	Waseda University
Principal Investigator	綱島秀樹早稲田大学, 理工学術院, 特別研究員(DC2)
Project Period (FY)	2023-03-08 – 2024-03-31
Keywords	視覚的コモンセンス / 幼児 / 一人称視点動画 / 質問応答 / 動画質問応答
Outline of Annual Research Achievements	本提案研究の実施期間2年間で，主著共著含めて国際学会3件，国内学会10件，受賞5件，著書1件であった．本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。 2023年度開始時は，近年登場したChatGPTがIとUを備えている可能性があり，ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を踏まえた上で，FPICUの統一的フレームワーク作成と新しい定式化を行なった．結果として，質問応答において，Ground-truth情報を入力するとうまくいくことを確認した．しかしながら，ベンチマークの問題設定が現実世界に即しておらず，評価基準も不適であった．そのため，ベンチマークの検討を行なった．2023年度はタスクの見直しと，ベンチマーク見直しのために筆頭著者としての論文出版を行うことはできなかったが，現在論文誌に投稿準備中である．