研究課題
基盤研究(B)
現在の大規模基盤モデルは、一次元の記号列である「言語」を入出力のインターフェース(人間とAIの共通言語)としている。画像モデルに関しても、画像を小さなパッチに分割し入力している。本研究のテーマであるマルチモーダル抽象推論では、シンボルの相対的な位置関係(例えば上下、左右、矢印等の始点・終点)の理解が必要条件であり、少なくとも二次元以上の依存関係を理解する必要がある。本研究を通して、言語のみならずダイアグラムも含めた抽象表現に対する内部過程を明らかにすることで、次世代のAI分野ではさらに高次元のインターフェース(例えば人間の脳とAIの直接的なインタラクション)構築の基盤を目指す。