研究課題/領域番号 |
22J10260
|
配分区分 | 補助金 |
研究機関 | 早稲田大学 |
研究代表者 |
綱島 秀樹 早稲田大学, 理工学術院, 特別研究員(DC2)
|
研究期間 (年度) |
2022-04-22 – 2024-03-31
|
キーワード | 視覚的コモンセンス / 常識 / 動画質問応答 / 幼児 / 未来予測 |
研究実績の概要 |
本研究課題の幼児の一人称視点動画からの視覚的コモンセンス獲得において、2022年度開始時は幼児の一人称視点動画の詳細な分析を行った。しかしながら、幼児の一人称視点動画は撮影条件や視点などが統一されておらず、機械学習の文脈において未来予測をすることは非常に困難であることが明らかとなった。 そこで、近年深層学習において技術的転換点となったTransformerを用いてインタラクションを伴う行動計画タスク自体から初期的視覚的コモンセンスを創発させることができないかに取り組んだ。Transformerの自己注意機構を可視化した結果として、視覚的コモンセンスのPやFについての初期的視覚コモンセンスの獲得の傾向は見られたが、CとIとUについての創発は見られなかった。それゆえ、タスク自体の見直しを行うことにした。 次に取り組んだタスクとして物理現象を伴うパズルであるPHYREを用いて、視覚的コモンセンスFPICU全ての創発を行うエージェントを開発することに取り組んだ。FPICUを全て創発させるために、FPICUを統一的に考慮する定式化を数学的に行い、実験を行った。しかしながら、因果性であるCの学習が困難を極め、Cの関連する技術であるVAEや統計的因果推論についてのサーベイを行った。 結果として、2022年度はタスクの2度の見直しとFPICUの学習困難性のために論文出版を行うことはできなかった。しかしながら、近年登場したChatGPTがIとUを備えている可能性があり、ChatGPTを活用して視覚的コモンセンスを統一的に考慮するための初期的実験を開始した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2022年度には幼児の一人称視点動画を用いて未来予測を行い,視覚的コモンセンスを獲得したニューラルネットワークを獲得する予定であったが,幼児の一人称視点動画の未来予測は困難であることが判明した.予定通り進まなかった理由として幼児の一人称視点動画のデータ自体の確認による要素の整理が行えていなかったためと考えられる.
|
今後の研究の推進方策 |
2022年度には幼児の一人称視点動画のデータ自体の確認による要素の整理が行えていなかったことが原因として,やや予定の計画よりも遅れてしまった. 2023年度は未だ未知の要素が多いChatGPT,様々なレベルが存在するPHYREの分析を進め,要素を明らかにしていくことで視覚的コモンセンスを獲得し,本計画の要である動画質問応答に取り組む。
|
備考 |
1つ目のタイトルが長いため,こちらに記載:Memory Efficient Diffusion Probabilistic Models via Patch-based Generation 2つ目のURLが長いため,こちらに記載:https://morishima-lab.jp/publication/視覚情報を用いたタスク指向型対話における人間の応答に対する間違い指摘の検討_2023-3-16
|