2021 Fiscal Year Final Research Report
Visual Question Answering System with a Knowledge Base
Project/Area Number |
18H03264
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Osaka University |
Principal Investigator |
Yuta Nakashima 大阪大学, データビリティフロンティア機構, 准教授 (70633551)
|
Co-Investigator(Kenkyū-buntansha) |
金 進東 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 質疑応答 / 知識ベース / 深層学習 |
Outline of Final Research Achievements |
Visual Question Answering (VQA) is an interdisciplinary field, lying on the vision and natural language fields, which is recently advanced drastically due to deep learning. Current techniques for VQA rely on rather a statistics approach, where the distribution of the training set solely matters. We need to go beyond this to make VQA more practical. Our core research question is: “Can VQA systems can answer questions that require inference?”, and we have been committed to building a system that uses knowledge for visual question answering (knowledge-based visual question answering; KBVQA), while also exploring an effective video representation.
|
Free Research Field |
コンピュータビジョン、パターン認識、自然言語処理
|
Academic Significance and Societal Importance of the Research Achievements |
本研究では、KBVQAの実現に向けて、モデルの評価のためのデータセットを構築し、その上でKBVQAのプロトタイプシステムを構築した。データセットは、今後のKBVQAの発展に大きく貢献するものであり、学術的に非常に価値が高いものであると考える。また、プロトタイプシステムでは、KBVQAの実現に際して問題となる映像記述とモデルの転用可能性について検証した。特に映像記述については、一般に広く利用されている高次元ベクトルによる記述が不十分であることを示し、新たな映像記述を提案している。
|