研究課題/領域番号 |
22KJ2914
|
補助金の研究課題番号 |
22J10260 (2022)
|
研究種目 |
特別研究員奨励費
|
配分区分 | 基金 (2023) 補助金 (2022) |
応募区分 | 国内 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 早稲田大学 |
研究代表者 |
綱島 秀樹 早稲田大学, 理工学術院, 特別研究員(DC2)
|
研究期間 (年度) |
2023-03-08 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
1,700千円 (直接経費: 1,700千円)
2023年度: 500千円 (直接経費: 500千円)
2022年度: 900千円 (直接経費: 900千円)
|
キーワード | 視覚的コモンセンス / 幼児 / 一人称視点動画 / 質問応答 / 動画質問応答 / 常識 / 未来予測 |
研究開始時の研究の概要 |
幼児は成長の過程において,視覚に関連する一般常識である”視覚的コモンセンス”を獲得しているとされているが,視覚的コモンセンスをどのように獲得すればよいか,階層性は明らかにされていない. 本研究では,幼児の一人称視点動画を用いて階層的な深層学習によって,未来予測を行うことで視覚的コモンセンスを獲得し,最終的に動画質問応答の視覚的コモンセンスを含む質問の正答率を向上させる.
|
研究実績の概要 |
本提案研究の実施期間2年間で,主著共著含めて国際学会3件,国内学会10件,受賞5件,著書1件であった. 本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。 2023年度開始時は,近年登場したChatGPTがIとUを備えている可能性があり,ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を踏まえた上で,FPICUの統一的フレームワーク作成と新しい定式化を行なった.結果として,質問応答において,Ground-truth情報を入力するとうまくいくことを確認した.しかしながら,ベンチマークの問題設定が現実世界に即しておらず,評価基準も不適であった.そのため,ベンチマークの検討を行なった.2023年度はタスクの見直しと,ベンチマーク見直しのために筆頭著者としての論文出版を行うことはできなかったが,現在論文誌に投稿準備中である.
|