2021 Fiscal Year Annual Research Report

Visual Question Answering System with a Knowledge Base

Research Project

Project/Area Number	18H03264
Research Institution	Osaka University
Principal Investigator	中島悠太大阪大学, データビリティフロンティア機構, 准教授 (70633551)
Co-Investigator(Kenkyū-buntansha)	金進東大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
Project Period (FY)	2018-04-01 – 2022-03-31
Keywords	質疑応答 / 知識ベース / 深層学習
Outline of Annual Research Achievements	画像や映像などの視覚情報に関する質疑応答（Visual Question Answering/Video Question Answering; VQA）は、機械と人の間の自然なインターフェイスなどのように様々な応用が考えられる技術である。本研究では、回答に際して知識が必要となる質問に対応可能なシステムを目指し、今年度は下記の課題に取り組んだ。（１）転移学習的なアプローチによる外部知識の置き換え：外部知識はテキストやグラフなどで与えられるものであり、容易に置き換えが可能である。この課題では、異なる2つのテレビドラマシリーズに関するVQAデータセットを構築し、それぞれの外部知識を相互に置き換える方法論を検討した。結果、置き換え先のデータセットでファインチューニングしない場合は、回答精度が大きく低下することがわかった。これはテレビドラマシリーズ間の語彙の違いなどによるものと予想される。登場人物などの固有名詞に対して何を表すかの付記（例えば、人物の固有名詞に対して「Person」を付記）や、データ拡張を実施した上で少数サンプルであってもファインチューニングすることで精度の向上が可能であることを示した。（２）知識の自動獲得：本研究では、外部知識としてそれぞれの質問に対して質問作成者によってテキストで付与された回答の根拠を利用するものを検討している。しかし、専用に記述された根拠ではその準備などにコストが掛かる。そこで、Wikipediaやまとめサイトのように、専用に記述されたものではなく、インターネット上で入手可能なテキストを外部知識として用いる手法を提案した。実験では、インターネット上に公開されたテレビドラマの各エピソードに関するまとめのテキスト（数文程度）を外部知識として利用することで、専用に記述された根拠より高い精度で質問に対して回答できることを明らかにした。
Research Progress Status	令和3年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和3年度が最終年度であるため、記入しない。

Research Products
(11 results)

All 2022 2021 Other

All Int'l Joint Research (1 results) Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (6 results) (of which Int'l Joint Research: 6 results) Remarks (2 results)

[Int'l Joint Research] University of Oulu/Tampere University(フィンランド)
- Country Name
  FINLAND
- Counterpart Institution
  University of Oulu/Tampere University
[Journal Article] The semantic typology of visually grounded paraphrases2022
- Author(s)
  Chu Chenhui、Oliveira Vinicius、Virgo Felix Giovanni、Otani Mayu、Garcia Noa、Nakashima Yuta
- Journal Title
  
  Computer Vision and Image Understanding
  
  Volume: 215 Pages: 103333～103333
- DOI
  10.1016/j.cviu.2021.103333
- Peer Reviewed / Open Access
[Journal Article] A comparative study of language transformers for video question answering2021
- Author(s)
  Yang Zekun、Garcia Noa、Chu Chenhui、Otani Mayu、Nakashima Yuta、Takemura Haruo
- Journal Title
  
  Neurocomputing
  
  Volume: 445 Pages: 121～133
- DOI
  10.1016/j.neucom.2021.02.092
- Peer Reviewed
[Presentation] Quantifying societal bias amplification in image captioning2022
- Author(s)
  Yusuke Hirota、Yuta Nakashima、Noa Garcia
- Organizer
  IEEE/CVF Conference on Computer Vision and Pattern Recognition
- Int'l Joint Research
[Presentation] Transferring domain-agnostic knowledge in video question answering2021
- Author(s)
  Tianran Wu、Noa Garcia、Mayu Otani、Chenhui Chu、Yuta Nakashima、Haruo Takemura
- Organizer
  British Machine Vision Conference
- Int'l Joint Research
[Presentation] GCNBoost: Artwork classification by label propagation through a knowledge graph2021
- Author(s)
  Cheikh Brahim El Vaigh、Noa Garcia、Benjamin Renoust、Chenhui Chu、Yuta Nakashima、Hajime Nagahara
- Organizer
  ACM International Conference on Multimedia Retrieval
- Int'l Joint Research
[Presentation] Image retrieval by hierarchy-aware deep hashing based on multi- task learning2021
- Author(s)
  Bowen Wang、Liangzhi Li、Yuta Nakashima、Takehiro Yamamoto、Hiroaki Ohshima、Yoshiyuki Shoji、Kenro Aihara、Noriko Kando
- Organizer
  ACM International Conference on Multimedia Retrieval
- Int'l Joint Research
[Presentation] Explain me the painting: Multi-topic knowledge- able art description generation2021
- Author(s)
  Zechen Bai、Yuta Nakashima、Noa Garcia
- Organizer
  IEEE/CVF International Conference on Computer Vision
- Int'l Joint Research
[Presentation] Visual question answering with textual representations for images2021
- Author(s)
  Yusuke Hirota、Noa Garcia、Mayu Otani、Chenhui Chu、Yuta Nakashima、Ittetsu Taniguchi、Takao Onoye
- Organizer
  IEEE/CVF International Conference on Computer Vision Workshops
- Int'l Joint Research
[Remarks] KnowIT VQA
- URL
  https://knowit-vqa.github.io/
[Remarks] Art Description Generation
- URL
  https://sites.google.com/view/art-description-generation

2021 Fiscal Year Annual Research Report

Visual Question Answering System with a Knowledge Base

Principal Investigator

中島 悠太 大阪大学, データビリティフロンティア機構, 准教授 (70633551)

Research Products

[Int'l Joint Research] University of Oulu/Tampere University(フィンランド)

Country Name

Counterpart Institution

[Journal Article] The semantic typology of visually grounded paraphrases2022

Author(s)

Journal Title

DOI

[Journal Article] A comparative study of language transformers for video question answering2021

Author(s)

Journal Title

DOI

[Presentation] Quantifying societal bias amplification in image captioning2022

Author(s)

Organizer

[Presentation] Transferring domain-agnostic knowledge in video question answering2021

Author(s)

Organizer

[Presentation] GCNBoost: Artwork classification by label propagation through a knowledge graph2021

Author(s)

Organizer

[Presentation] Image retrieval by hierarchy-aware deep hashing based on multi- task learning2021

Author(s)

Organizer

[Presentation] Explain me the painting: Multi-topic knowledge- able art description generation2021

Author(s)

Organizer

[Presentation] Visual question answering with textual representations for images2021

Author(s)

Organizer

[Remarks] KnowIT VQA

URL

[Remarks] Art Description Generation

URL

中島悠太大阪大学, データビリティフロンティア機構, 准教授 (70633551)