• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

階層型視覚的コモンセンスを考慮した動画質問応答

Research Project

Project/Area Number 22KJ2914
Project/Area Number (Other) 22J10260 (2022)
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeMulti-year Fund (2023)
Single-year Grants (2022)
Section国内
Review Section Basic Section 61010:Perceptual information processing-related
Research InstitutionWaseda University

Principal Investigator

綱島 秀樹  早稲田大学, 理工学術院, 特別研究員(DC2)

Project Period (FY) 2023-03-08 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2023: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 2022: ¥900,000 (Direct Cost: ¥900,000)
Keywords視覚的コモンセンス / 幼児 / 一人称視点動画 / 質問応答 / 動画質問応答 / 常識 / 未来予測
Outline of Research at the Start

幼児は成長の過程において,視覚に関連する一般常識である”視覚的コモンセンス”を獲得しているとされているが,視覚的コモンセンスをどのように獲得すればよいか,階層性は明らかにされていない.
本研究では,幼児の一人称視点動画を用いて階層的な深層学習によって,未来予測を行うことで視覚的コモンセンスを獲得し,最終的に動画質問応答の視覚的コモンセンスを含む質問の正答率を向上させる.

Outline of Annual Research Achievements

本提案研究の実施期間2年間で,主著共著含めて国際学会3件,国内学会10件,受賞5件,著書1件であった.
本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。
2023年度開始時は,近年登場したChatGPTがIとUを備えている可能性があり,ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を踏まえた上で,FPICUの統一的フレームワーク作成と新しい定式化を行なった.結果として,質問応答において,Ground-truth情報を入力するとうまくいくことを確認した.しかしながら,ベンチマークの問題設定が現実世界に即しておらず,評価基準も不適であった.そのため,ベンチマークの検討を行なった.2023年度はタスクの見直しと,ベンチマーク見直しのために筆頭著者としての論文出版を行うことはできなかったが,現在論文誌に投稿準備中である.

Report

(2 results)
  • 2023 Annual Research Report
  • 2022 Annual Research Report
  • Research Products

    (10 results)

All 2024 2023 Other

All Presentation (5 results) (of which Int'l Joint Research: 1 results) Book (1 results) Remarks (4 results)

  • [Presentation] 人間の汎化性能をAIでどう達成するか?2024

    • Author(s)
      綱島秀樹
    • Organizer
      第2回VISION, GRAPHICS AND SENSING WORKSHOP
    • Related Report
      2023 Annual Research Report
  • [Presentation] 複数解像度で画像を生成可能な拡散確率モデル2023

    • Author(s)
      荒川深映(この発表者と綱島は共同第一著者)
    • Organizer
      IPSJ2023
    • Related Report
      2022 Annual Research Report
  • [Presentation] 視覚情報に用いたタスク指向型対話における人間の返答に対する間違い指摘の検討2023

    • Author(s)
      大島遼祐(この発表者と綱島は共同著者)
    • Organizer
      NLP2023
    • Related Report
      2022 Annual Research Report
  • [Presentation] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023

    • Author(s)
      大島遼祐(この発表者と綱島は共同著者)
    • Organizer
      IPSJ2023
    • Related Report
      2022 Annual Research Report
  • [Presentation] Memory Efficient Diffusion Probabilistic Models via Patch-based Generation2023

    • Author(s)
      Shinei Arakawa(この発表者と綱島は共同著者)
    • Organizer
      GCV2023
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Book] コンピュータビジョン最前線 Spring 20242024

    • Author(s)
      綱島秀樹, 中村凌, 上田樹 (分担執筆)
    • Total Pages
      148
    • Publisher
      共立出版
    • ISBN
      9784320125513
    • Related Report
      2023 Annual Research Report
  • [Remarks] Hideki Tsunashima

    • URL

      https://maguro27.github.io/hideki-tsunashima-page/

    • Related Report
      2023 Annual Research Report
  • [Remarks] Morishima Lab.

    • URL

      https://morishima-lab.jp/

    • Related Report
      2023 Annual Research Report
  • [Remarks]

    • URL

      https://morishima-lab.jp/publication/Memory-Efficient-Diffusion-Probabilistic-Models-via-Patch-based-Generation_2023-6-18

    • Related Report
      2022 Annual Research Report
  • [Remarks] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討

    • Related Report
      2022 Annual Research Report

URL: 

Published: 2022-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi