研究課題
画像や映像などの視覚情報に関する質疑応答(Visual Question Answering/Video Question Answering; VQA)は、機械と人の間の自然なインターフェイスなどのように様々な応用が考えられる技術である。本研究では、回答に際して知識が必要となる質問に対応可能なシステムを目指し、今年度は下記の課題に取り組んだ。(1)転移学習的なアプローチによる外部知識の置き換え:外部知識はテキストやグラフなどで与えられるものであり、容易に置き換えが可能である。この課題では、異なる2つのテレビドラマシリーズに関するVQAデータセットを構築し、それぞれの外部知識を相互に置き換える方法論を検討した。結果、置き換え先のデータセットでファインチューニングしない場合は、回答精度が大きく低下することがわかった。これはテレビドラマシリーズ間の語彙の違いなどによるものと予想される。登場人物などの固有名詞に対して何を表すかの付記(例えば、人物の固有名詞に対して「Person」を付記)や、データ拡張を実施した上で少数サンプルであってもファインチューニングすることで精度の向上が可能であることを示した。(2)知識の自動獲得: 本研究では、外部知識としてそれぞれの質問に対して質問作成者によってテキストで付与された回答の根拠を利用するものを検討している。しかし、専用に記述された根拠ではその準備などにコストが掛かる。そこで、Wikipediaやまとめサイトのように、専用に記述されたものではなく、インターネット上で入手可能なテキストを外部知識として用いる手法を提案した。実験では、インターネット上に公開されたテレビドラマの各エピソードに関するまとめのテキスト(数文程度)を外部知識として利用することで、専用に記述された根拠より高い精度で質問に対して回答できることを明らかにした。
令和3年度が最終年度であるため、記入しない。
すべて 2022 2021 その他
すべて 国際共同研究 (1件) 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (6件) (うち国際学会 6件) 備考 (2件)
Computer Vision and Image Understanding
巻: 215 ページ: 103333~103333
10.1016/j.cviu.2021.103333
Neurocomputing
巻: 445 ページ: 121~133
10.1016/j.neucom.2021.02.092
https://knowit-vqa.github.io/
https://sites.google.com/view/art-description-generation