2020 Fiscal Year Annual Research Report

Visual Question Answering System with a Knowledge Base

Research Project

Project/Area Number	18H03264
Research Institution	Osaka University
Principal Investigator	中島悠太大阪大学, データビリティフロンティア機構, 准教授 (70633551)
Co-Investigator(Kenkyū-buntansha)	金進東大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
Project Period (FY)	2018-04-01 – 2022-03-31
Keywords	質疑応答 / 知識ベース / 深層学習
Outline of Annual Research Achievements	視覚情報に関する質疑応答（VQA）において、回答の際に知識を要求する質問にも対応可能なシステムの実現を目指し、本年度は主に、（１）映像を記述する特徴量（映像表現）の検討、（２）VQAの基盤となるモデルの検討、の2項目について研究を行った。（１）映像を記述する特徴量（映像表現）の検討：近年、映像や画像に関連する深層学習モデルにおいて、映像や画像が十分に利用できていないという問題が明らかになってきている。これは、本研究で対象とするVQAを含む、映像・画像と自然言語を入力とするモデルでも顕著に見られる。本研究でも、映像と自然言語を入力とする自然言語クエリによる部分映像検索を例として、この問題を明らかにした。そこで、特に映像のよりよい利用方法の検討を目的として、現在までの視覚情報をエンコードした高次元のベクトルに代えて、自然言語を基盤とする新しい映像の表現を検討した。これにより、現在自然言語処理分野で広く利用されているTransformerに基づくモデルを利用した意味内容のモデル化が可能となる。まず、映像からオブジェクト検出などによって得られたオブジェクトのラベル自体をモデルの入力として利用する方法を考案し、事前学習したモデルのうち、どれが優れているかを検討した。続いて、本研究で構築したデータセットについて、オブジェクト検出などの結果からルールベースで自然言語の文章を生成し、映像の表現として利用する方法を検討した。結果、本研究で提案した既存モデルに比べ高い性能が得られることがわかった。（２）VQAの基盤となるモデルの検討： VQAでは、入力される映像や自然言語に加えて、それらのデータをどのように扱うかが重要となる。特に、比較的長い依存関係を取り扱うモデルの検討のために、笑いの検出を例題として研究開発を実施した。また、質問と回答を同時に生成するアプローチについても検討した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 一部計画に前後するところがあるものの、本研究の主な目的である、知識を必要とする映像に関する質疑応答については、すでに十分な検討が進んでおり、順調であると言える。
Strategy for Future Research Activity	今後は、下記の課題に取り組み、知識を必要とする映像に関する質疑応答のための一つのシステムとしての完成を目指す。 (1)転移学習的アプローチによる外部知識の置き換え：外部知識は自然言語テキストやグラフとして表現されるものであり、簡単に置き換え可能である。一方で、これまでに本研究で構築したニューラルネットワークを利用した質疑応答システムでは、外部知識にアクセス可能であるという前提でネットワークの訓練を行うことから、得られたネットワークは対応する外部知識に特化したものとなる。そこで、本研究では、すでに構築したデータセットと同様のデータセットを別のテレビドラマで新たに構築し、転移学習的なアプローチによって、外部知識の置き換え(自然言語テキストの集合を別の自然言語テキストの集合に置き換えるなど)によるドメインの適応を検討する。 (2)知識の自動獲得：本研究で提案するアプローチでは、外部知識が与えられることを想定するが、質疑応答のドメインによってはこのような外部知識が存在しない場合がありうる。そこで、テレビドラマなどを想定し、字幕などのテキスト、映像、さらにインターネット上の関連ウェブサイトなどから、知識を獲得する方法を模索する。これは、質疑応答システムが人間と同じように知識を獲得することに相当するとも考えられる挑戦的な課題であるといえる。

Research Products
(10 results)

All 2021 2020 Other

All Int'l Joint Research (2 results) Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (6 results) (of which Int'l Joint Research: 5 results)

[Int'l Joint Research] Carnegie Mellon University(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  Carnegie Mellon University
[Int'l Joint Research] Tampere University/University of Oulu(フィンランド)
- Country Name
  FINLAND
- Counterpart Institution
  Tampere University/University of Oulu
[Journal Article] A comparative study of language transformers for video question answering2021
- Author(s)
  Yang Zekun、Garcia Noa、Chu Chenhui、Otani Mayu、Nakashima Yuta、Takemura Haruo
- Journal Title
  
  Neurocomputing
  
  Volume: 445 Pages: 121～133
- DOI
  10.1016/j.neucom.2021.02.092
- Peer Reviewed
[Journal Article] Visually grounded paraphrase identification via gating and phrase localization2020
- Author(s)
  Otani Mayu、Chu Chenhui、Nakashima Yuta
- Journal Title
  
  Neurocomputing
  
  Volume: 404 Pages: 165～172
- DOI
  10.1016/j.neucom.2020.04.066
- Peer Reviewed / Open Access
[Presentation] The Laughing Machine: Predicting Humor in Video2021
- Author(s)
  Yuta Kayatani、Zekun Yang、Mayu Otani、Noa Garcia、Chenhui Chu、Yuta Nakashima、Haruo Takemura
- Organizer
  2021 IEEE Winter Conference on Applications Computer Vision
- Int'l Joint Research
[Presentation] Uncovering Hidden Challenges in Query-Based Video Moment Retrieval2020
- Author(s)
  Mayu Otani、Yuta Nakashima、Esa Rahtu、Janne Heikkila
- Organizer
  31st Biritish Machine Vision Conference
- Int'l Joint Research
[Presentation] Knowledge-Based Visual Question Answering in Videos2020
- Author(s)
  Noa Garcia、Mayu Otani、Chenhui Chu、Yuta Nakashima
- Organizer
  2020 Conference on Computer Vision and Pattern Recognition Workshops
- Int'l Joint Research
[Presentation] A Dataset and Baselines for Visual Question Answering on Art2020
- Author(s)
  Noa Garcia、Chentao Ye、Zihua Liu、Qingtao Hu、Mayu Otani、Chenhui Chu、Yuta Nakashima、Teruko Mitamura
- Organizer
  2020 Workshop on Computer Vision for Art
- Int'l Joint Research
[Presentation] Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions2020
- Author(s)
  Noa Garcia、Yuta Nakashima
- Organizer
  European Conference on Computer Vision
- Int'l Joint Research
[Presentation] What We All Need Are Non-trivial Baselines and Sanity Checks2020
- Author(s)
  Mayu Otani、Yuta Nakashima、Esa Rahtu、Janne Heikkila
- Organizer
  第23回画像の認識・理解シンポジウム

2020 Fiscal Year Annual Research Report

Visual Question Answering System with a Knowledge Base

Principal Investigator

中島 悠太 大阪大学, データビリティフロンティア機構, 准教授 (70633551)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] Carnegie Mellon University(米国)

Country Name

Counterpart Institution

[Int'l Joint Research] Tampere University/University of Oulu(フィンランド)

Country Name

Counterpart Institution

[Journal Article] A comparative study of language transformers for video question answering2021

Author(s)

Journal Title

DOI

[Journal Article] Visually grounded paraphrase identification via gating and phrase localization2020

Author(s)

Journal Title

DOI

[Presentation] The Laughing Machine: Predicting Humor in Video2021

Author(s)

Organizer

[Presentation] Uncovering Hidden Challenges in Query-Based Video Moment Retrieval2020

Author(s)

Organizer

[Presentation] Knowledge-Based Visual Question Answering in Videos2020

Author(s)

Organizer

[Presentation] A Dataset and Baselines for Visual Question Answering on Art2020

Author(s)

Organizer

[Presentation] Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions2020

Author(s)

Organizer

[Presentation] What We All Need Are Non-trivial Baselines and Sanity Checks2020

Author(s)

Organizer

中島悠太大阪大学, データビリティフロンティア機構, 准教授 (70633551)