研究課題
基盤研究(B)
人口減少や高齢化による労働力低下が懸念される状況では,人間と共生して活動を支援できるAIが人間同様に視覚情報(動画など)を介して実世界を理解し,人間の目的に応じて適切に行動できることが期待される.大規模言語モデルをはじめとしたAI技術の急速な発展により,人間とAIの言語を介したやりとりは実現しつつあるが,視覚を介したやりとりはいまだに困難な問題である.本研究では人間とAIの視覚を介したやりとりの実現のために,多様な情報を含む動画という視覚情報をどのようにして目的に応じた適切な情報粒度で言語として記述するのかという問題に焦点を当て,動画を目的に応じて適切な情報粒度で記述する技術の確立を目指す.