Project/Area Number |
22K19808
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
Yanai Keiji 電気通信大学, 大学院情報理工学研究科, 教授 (20301179)
|
Project Period (FY) |
2022-06-30 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2023: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2022: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
|
Keywords | 深層学習 / 継続学習 / 大規模モデル / 視覚言語モデル / 連続学習 / Vision Transformer / Stable Diffusion / Zero-shot segmentation / マルチタスク学習 |
Outline of Research at the Start |
本研究では,単一のCNN (Convolutional Neural Network, 畳み込みネットワーク)に複数のタスクのための機能を同時に学習させ,学習した独立の機能の組み合わせ・重ね合わせによって,事前に学習した個別の単一機能とは異なる,新しい機能を実現し,Neural Networkがより人間の脳に近い汎用的な能力を持っていることを実証することを目的とする.また,複数機能の組み合わせによる実用的な応用についても検討する.
|
Outline of Final Research Achievements |
In this study, we started research to demonstrate that Neural Networks have general-purpose capabilities that are more similar to those of the human brain by having a single neural network learn functions for multiple tasks simultaneously, and by combining and superimposing the learned independent functions to realize new functions that are different from the individual single functions that were learned beforehand. The following three specific research projects has beed studied. (1) Superimposition of image transformation tasks using conditional signals. (2) Continuous learning of Vision Transformer(ViT). (3) Stable Diffusion for region segmentation of arbitrary words without learning: Using a large-scale trained image generation model, we extract regions corresponding to words without additional learning.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究によって,ニューラルネットワークには,異なる機能の同時学習に関してより柔軟に対応できる能力が備わっていることが示された.また,10億スケールの大規模画像言語ペアデータで学習されたテキストからの画像生成モデルには,テキストと視覚概念をピクセルレベルで対応付ける能力が備わっていることが示され,追加の学習なしで多様なタスクに活用できる可能性が大いに高まったと言える.今後は,この学習なしの能力を多様なタスクに対して実証し,それらの複合的な処理も学習無しで実現することを追求することで,大規模視覚言語モデルの応用可能性を大いに広げることが可能となる.
|