2022 Fiscal Year Annual Research Report

階層型視覚的コモンセンスを考慮した動画質問応答

Research Project

Project/Area Number	22J10260
Allocation Type	Single-year Grants
Research Institution	Waseda University
Principal Investigator	綱島秀樹早稲田大学, 理工学術院, 特別研究員(DC2)
Project Period (FY)	2022-04-22 – 2024-03-31
Keywords	視覚的コモンセンス / 常識 / 動画質問応答 / 幼児 / 未来予測
Outline of Annual Research Achievements	本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。Transformerの自己注意機構を可視化した結果として、視覚的コモンセンスのPやFについての初期的視覚コモンセンスの獲得の傾向は見られたが、CとIとUについての創発は見られなかった。それゆえ、タスク自体の見直しを行うことにした。次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。結果として、2022年度はタスクの2度の見直しとFPICUの学習困難性のために論文出版を行うことはできなかった。しかしながら、近年登場したChatGPTがIとUを備えている可能性があり、ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を開始した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 2022年度には幼児の一人称視点動画を用いて未来予測を行い，視覚的コモンセンスを獲得したニューラルネットワークを獲得する予定であったが，幼児の一人称視点動画の未来予測は困難であることが判明した．予定通り進まなかった理由として幼児の一人称視点動画のデータ自体の確認による要素の整理が行えていなかったためと考えられる．
Strategy for Future Research Activity	2022年度には幼児の一人称視点動画のデータ自体の確認による要素の整理が行えていなかったことが原因として，やや予定の計画よりも遅れてしまった． 2023年度は未だ未知の要素が多いChatGPT，様々なレベルが存在するPHYREの分析を進め，要素を明らかにしていくことで視覚的コモンセンスを獲得し，本計画の要である動画質問応答に取り組む。
Remarks	1つ目のタイトルが長いため，こちらに記載：Memory Efficient Diffusion Probabilistic Models via Patch-based Generation 2つ目のURLが長いため，こちらに記載：https://morishima-lab.jp/publication/視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討_2023-3-16

Research Products
(6 results)

All 2023 Other

All Presentation (4 results) (of which Int'l Joint Research: 1 results) Remarks (2 results)

[Presentation] 複数解像度で画像を生成可能な拡散確率モデル2023
- Author(s)
  荒川深映（この発表者と綱島は共同第一著者）
- Organizer
  IPSJ2023
[Presentation] 視覚情報に用いたタスク指向型対話における人間の返答に対する間違い指摘の検討2023
- Author(s)
  大島遼祐（この発表者と綱島は共同著者）
- Organizer
  NLP2023
[Presentation] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023
- Author(s)
  大島遼祐（この発表者と綱島は共同著者）
- Organizer
  IPSJ2023
[Presentation] Memory Efficient Diffusion Probabilistic Models via Patch-based Generation2023
- Author(s)
  Shinei Arakawa（この発表者と綱島は共同著者）
- Organizer
  GCV2023
- Int'l Joint Research
[Remarks]
- URL
  https://morishima-lab.jp/publication/Memory-Efficient-Diffusion-Probabilistic-Models-via-Patch-based-Generation_2023-6-18
[Remarks] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討

2022 Fiscal Year Annual Research Report

階層型視覚的コモンセンスを考慮した動画質問応答

Principal Investigator

綱島 秀樹 早稲田大学, 理工学術院, 特別研究員(DC2)

Current Status of Research Progress

Reason

Research Products

[Presentation] 複数解像度で画像を生成可能な拡散確率モデル2023

Author(s)

Organizer

[Presentation] 視覚情報に用いたタスク指向型対話における人間の返答に対する間違い指摘の検討2023

Author(s)

Organizer

[Presentation] 視覚情報に基づくタスク指向型対話における人間の返答に対する間違い指摘の検討2023

Author(s)

Organizer

[Presentation] Memory Efficient Diffusion Probabilistic Models via Patch-based Generation2023

Author(s)

Organizer

[Remarks]

URL

[Remarks] 視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討

綱島秀樹早稲田大学, 理工学術院, 特別研究員(DC2)