階層型視覚的コモンセンスを考慮した動画質問応答

研究課題

研究課題/領域番号	22KJ2914
補助金の研究課題番号	22J10260 (2022)
研究種目	特別研究員奨励費
配分区分	基金 (2023) 補助金 (2022)
応募区分	国内
審査区分	小区分61010:知覚情報処理関連
研究機関	早稲田大学
研究代表者	綱島秀樹早稲田大学, 理工学術院, 特別研究員(DC2)
研究期間 (年度)	2023-03-08 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	1,700千円 (直接経費: 1,700千円) 2023年度: 500千円 (直接経費: 500千円) 2022年度: 900千円 (直接経費: 900千円)
キーワード	視覚的コモンセンス / 幼児 / 一人称視点動画 / 質問応答 / 動画質問応答 / 常識 / 未来予測
研究開始時の研究の概要	幼児は成長の過程において，視覚に関連する一般常識である”視覚的コモンセンス”を獲得しているとされているが，視覚的コモンセンスをどのように獲得すればよいか，階層性は明らかにされていない．本研究では，幼児の一人称視点動画を用いて階層的な深層学習によって，未来予測を行うことで視覚的コモンセンスを獲得し，最終的に動画質問応答の視覚的コモンセンスを含む質問の正答率を向上させる．
研究実績の概要	本提案研究の実施期間2年間で，主著共著含めて国際学会3件，国内学会10件，受賞5件，著書1件であった．本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。 2023年度開始時は，近年登場したChatGPTがIとUを備えている可能性があり，ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を踏まえた上で，FPICUの統一的フレームワーク作成と新しい定式化を行なった．結果として，質問応答において，Ground-truth情報を入力するとうまくいくことを確認した．しかしながら，ベンチマークの問題設定が現実世界に即しておらず，評価基準も不適であった．そのため，ベンチマークの検討を行なった．2023年度はタスクの見直しと，ベンチマーク見直しのために筆頭著者としての論文出版を行うことはできなかったが，現在論文誌に投稿準備中である．

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(10件)

すべて 2024 2023 その他

すべて学会発表 (5件) (うち国際学会 1件) 図書 (1件) 備考 (4件)

[学会発表] 人間の汎化性能をAIでどう達成するか?2024
- 著者名/発表者名
  綱島秀樹
- 学会等名
  第2回VISION, GRAPHICS AND SENSING WORKSHOP
- 関連する報告書
  2023 実績報告書
[学会発表] 複数解像度で画像を生成可能な拡散確率モデル2023
- 著者名/発表者名
  荒川深映（この発表者と綱島は共同第一著者）
- 学会等名
  IPSJ2023
- 関連する報告書
  2022 実績報告書
[学会発表] 視覚情報に用いたタスク指向型対話における人間の返答に対する間違い指摘の検討2023
- 著者名/発表者名
  大島遼祐（この発表者と綱島は共同著者）
- 学会等名
  NLP2023
- 関連する報告書
  2022 実績報告書
[学会発表] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023
- 著者名/発表者名
  大島遼祐（この発表者と綱島は共同著者）
- 学会等名
  IPSJ2023
- 関連する報告書
  2022 実績報告書
[学会発表] Memory Efficient Diffusion Probabilistic Models via Patch-based Generation2023
- 著者名/発表者名
  Shinei Arakawa（この発表者と綱島は共同著者）
- 学会等名
  GCV2023
- 関連する報告書
  2022 実績報告書
- 国際学会
[図書] コンピュータビジョン最前線　Spring 20242024
- 著者名/発表者名
  綱島秀樹, 中村凌, 上田樹 (分担執筆)
- 総ページ数
  148
- 出版者
  共立出版
- ISBN
  9784320125513
- 関連する報告書
  2023 実績報告書
[備考] Hideki Tsunashima
- URL
  https://maguro27.github.io/hideki-tsunashima-page/
- 関連する報告書
  2023 実績報告書
[備考] Morishima Lab.
- URL
  https://morishima-lab.jp/
- 関連する報告書
  2023 実績報告書
[備考]
- URL
  https://morishima-lab.jp/publication/Memory-Efficient-Diffusion-Probabilistic-Models-via-Patch-based-Generation_2023-6-18
- 関連する報告書
  2022 実績報告書
[備考] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討
- 関連する報告書
  2022 実績報告書

階層型視覚的コモンセンスを考慮した動画質問応答

研究代表者

綱島 秀樹 早稲田大学, 理工学術院, 特別研究員(DC2)

1,700千円 (直接経費: 1,700千円)

報告書

研究成果

[学会発表] 人間の汎化性能をAIでどう達成するか?2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 複数解像度で画像を生成可能な拡散確率モデル2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 視覚情報に用いたタスク指向型対話における人間の返答に対する間違い指摘の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Memory Efficient Diffusion Probabilistic Models via Patch-based Generation2023

著者名/発表者名

学会等名

関連する報告書

[図書] コンピュータビジョン最前線 Spring 20242024

著者名/発表者名

総ページ数

出版者

ISBN

関連する報告書

[備考] Hideki Tsunashima

URL

関連する報告書

[備考] Morishima Lab.

URL

関連する報告書

[備考]

URL

関連する報告書

[備考] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討

関連する報告書

綱島秀樹早稲田大学, 理工学術院, 特別研究員(DC2)

[図書] コンピュータビジョン最前線　Spring 20242024