研究課題/領域番号 |
18H03264
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 大阪大学 |
研究代表者 |
中島 悠太 大阪大学, データビリティフロンティア機構, 准教授 (70633551)
|
研究分担者 |
金 進東 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2021年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2020年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2019年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2018年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
|
キーワード | 質疑応答 / 知識ベース / 深層学習 |
研究成果の概要 |
VQAは、DNNの登場により飛躍的に発展したマルチモーダル(自然言語と視覚情報)なデータを扱う分野のひとつである。しかし、真に実用的なシステムとするためには、現状の統計的なアプローチを超えた新たな枠組みが必要である。本研究では、VQAは推論を要するような未知の質問にも対応できるかという挑戦的な学術的「問い」を核心とし、視覚情報に関する質疑応答における知識の利用(Knowledge-based Visual Question Answering; KBVQA)の実現を目的として研究を実施した。映像の記述方法についての検証を行いつつ、知識を利用するモデルを構築し、KBVQAの可能性を示した。
|
研究成果の学術的意義や社会的意義 |
本研究では、KBVQAの実現に向けて、モデルの評価のためのデータセットを構築し、その上でKBVQAのプロトタイプシステムを構築した。データセットは、今後のKBVQAの発展に大きく貢献するものであり、学術的に非常に価値が高いものであると考える。また、プロトタイプシステムでは、KBVQAの実現に際して問題となる映像記述とモデルの転用可能性について検証した。特に映像記述については、一般に広く利用されている高次元ベクトルによる記述が不十分であることを示し、新たな映像記述を提案している。
|