本研究によって,ニューラルネットワークには,異なる機能の同時学習に関してより柔軟に対応できる能力が備わっていることが示された.また,10億スケールの大規模画像言語ペアデータで学習されたテキストからの画像生成モデルには,テキストと視覚概念をピクセルレベルで対応付ける能力が備わっていることが示され,追加の学習なしで多様なタスクに活用できる可能性が大いに高まったと言える.今後は,この学習なしの能力を多様なタスクに対して実証し,それらの複合的な処理も学習無しで実現することを追求することで,大規模視覚言語モデルの応用可能性を大いに広げることが可能となる.
|