知識ベースを活用した視覚情報に関する質疑応答システムの実現

研究課題

研究課題/領域番号	18H03264
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	大阪大学
研究代表者	中島悠太大阪大学, データビリティフロンティア機構, 准教授 (70633551)
研究分担者	金進東大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (40536893)
研究期間 (年度)	2018-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円) 2021年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2020年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2019年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円) 2018年度: 5,200千円 (直接経費: 4,000千円、間接経費: 1,200千円)
キーワード	質疑応答 / 知識ベース / 深層学習
研究成果の概要	VQAは、DNNの登場により飛躍的に発展したマルチモーダル（自然言語と視覚情報）なデータを扱う分野のひとつである。しかし、真に実用的なシステムとするためには、現状の統計的なアプローチを超えた新たな枠組みが必要である。本研究では、VQAは推論を要するような未知の質問にも対応できるかという挑戦的な学術的「問い」を核心とし、視覚情報に関する質疑応答における知識の利用（Knowledge-based Visual Question Answering; KBVQA）の実現を目的として研究を実施した。映像の記述方法についての検証を行いつつ、知識を利用するモデルを構築し、KBVQAの可能性を示した。
研究成果の学術的意義や社会的意義	本研究では、KBVQAの実現に向けて、モデルの評価のためのデータセットを構築し、その上でKBVQAのプロトタイプシステムを構築した。データセットは、今後のKBVQAの発展に大きく貢献するものであり、学術的に非常に価値が高いものであると考える。また、プロトタイプシステムでは、KBVQAの実現に際して問題となる映像記述とモデルの転用可能性について検証した。特に映像記述については、一般に広く利用されている高次元ベクトルによる記述が不十分であることを示し、新たな映像記述を提案している。

報告書

(5件)

研究成果
(40件)

すべて 2022 2021 2020 2019 2018 その他

すべて国際共同研究 (5件) 雑誌論文 (5件) (うち査読あり 5件、オープンアクセス 3件) 学会発表 (26件) (うち国際学会 19件) 備考 (4件)

[国際共同研究] University of Oulu/Tampere University(フィンランド)
- 関連する報告書
  2021 実績報告書
[国際共同研究] Carnegie Mellon University(米国)
- 関連する報告書
  2020 実績報告書
[国際共同研究] Tampere University/University of Oulu(フィンランド)
- 関連する報告書
  2020 実績報告書
[国際共同研究] University of Oulu/Tampere University(フィンランド)
- 関連する報告書
  2019 実績報告書
[国際共同研究] Tampere University/University of Oulu(フィンランド)
- 関連する報告書
  2018 実績報告書
[雑誌論文] The semantic typology of visually grounded paraphrases2022
- 著者名/発表者名
  Chu Chenhui、Oliveira Vinicius、Virgo Felix Giovanni、Otani Mayu、Garcia Noa、Nakashima Yuta
- 雑誌名
  
  Computer Vision and Image Understanding
  
  巻: 215 ページ: 103333-103333
- DOI
  10.1016/j.cviu.2021.103333
- NAID
  120007179309
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] A comparative study of language transformers for video question answering2021
- 著者名/発表者名
  Yang Zekun、Garcia Noa、Chu Chenhui、Otani Mayu、Nakashima Yuta、Takemura Haruo
- 雑誌名
  
  Neurocomputing
  
  巻: 445 ページ: 121-133
- DOI
  10.1016/j.neucom.2021.02.092
- 関連する報告書
  2021 実績報告書 2020 実績報告書
- 査読あり
[雑誌論文] Visually grounded paraphrase identification via gating and phrase localization2020
- 著者名/発表者名
  Otani Mayu、Chu Chenhui、Nakashima Yuta
- 雑誌名
  
  Neurocomputing
  
  巻: 404 ページ: 165-172
- DOI
  10.1016/j.neucom.2020.04.066
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Visually grounded paraphrase identification via gating and phrase localization2020
- 著者名/発表者名
  Mayu Otani, Chenhui Chu, and Yuta Nakashima
- 雑誌名
  
  Neurocomputing
  
  巻: -
- 関連する報告書
  2019 実績報告書
- 査読あり
[雑誌論文] ContextNet: Representation and exploration for painting classification and retrieval in context2019
- 著者名/発表者名
  Noa Garcia, Benjamin Renoust, and Yuta Nakashima
- 雑誌名
  
  International Journal on Multimedia Information Retrieval
  
  巻: 9 号: 1 ページ: 17-30
- DOI
  10.1007/s13735-019-00189-4
- 関連する報告書
  2019 実績報告書
- 査読あり / オープンアクセス
[学会発表] Quantifying societal bias amplification in image captioning2022
- 著者名/発表者名
  Yusuke Hirota、Yuta Nakashima、Noa Garcia
- 学会等名
  IEEE/CVF Conference on Computer Vision and Pattern Recognition
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Transferring domain-agnostic knowledge in video question answering2021
- 著者名/発表者名
  Tianran Wu、Noa Garcia、Mayu Otani、Chenhui Chu、Yuta Nakashima、Haruo Takemura
- 学会等名
  British Machine Vision Conference
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] GCNBoost: Artwork classification by label propagation through a knowledge graph2021
- 著者名/発表者名
  Cheikh Brahim El Vaigh、Noa Garcia、Benjamin Renoust、Chenhui Chu、Yuta Nakashima、Hajime Nagahara
- 学会等名
  ACM International Conference on Multimedia Retrieval
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Image retrieval by hierarchy-aware deep hashing based on multi- task learning2021
- 著者名/発表者名
  Bowen Wang、Liangzhi Li、Yuta Nakashima、Takehiro Yamamoto、Hiroaki Ohshima、Yoshiyuki Shoji、Kenro Aihara、Noriko Kando
- 学会等名
  ACM International Conference on Multimedia Retrieval
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Explain me the painting: Multi-topic knowledge- able art description generation2021
- 著者名/発表者名
  Zechen Bai、Yuta Nakashima、Noa Garcia
- 学会等名
  IEEE/CVF International Conference on Computer Vision
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Visual question answering with textual representations for images2021
- 著者名/発表者名
  Yusuke Hirota、Noa Garcia、Mayu Otani、Chenhui Chu、Yuta Nakashima、Ittetsu Taniguchi、Takao Onoye
- 学会等名
  IEEE/CVF International Conference on Computer Vision Workshops
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] The Laughing Machine: Predicting Humor in Video2021
- 著者名/発表者名
  Yuta Kayatani、Zekun Yang、Mayu Otani、Noa Garcia、Chenhui Chu、Yuta Nakashima、Haruo Takemura
- 学会等名
  2021 IEEE Winter Conference on Applications Computer Vision
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Uncovering Hidden Challenges in Query-Based Video Moment Retrieval2020
- 著者名/発表者名
  Mayu Otani、Yuta Nakashima、Esa Rahtu、Janne Heikkila
- 学会等名
  31st Biritish Machine Vision Conference
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Knowledge-Based Visual Question Answering in Videos2020
- 著者名/発表者名
  Noa Garcia、Mayu Otani、Chenhui Chu、Yuta Nakashima
- 学会等名
  2020 Conference on Computer Vision and Pattern Recognition Workshops
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] A Dataset and Baselines for Visual Question Answering on Art2020
- 著者名/発表者名
  Noa Garcia、Chentao Ye、Zihua Liu、Qingtao Hu、Mayu Otani、Chenhui Chu、Yuta Nakashima、Teruko Mitamura
- 学会等名
  2020 Workshop on Computer Vision for Art
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions2020
- 著者名/発表者名
  Noa Garcia、Yuta Nakashima
- 学会等名
  European Conference on Computer Vision
- 関連する報告書
  2020 実績報告書
- 国際学会
[学会発表] What We All Need Are Non-trivial Baselines and Sanity Checks2020
- 著者名/発表者名
  Mayu Otani、Yuta Nakashima、Esa Rahtu、Janne Heikkila
- 学会等名
  第23回画像の認識・理解シンポジウム
- 関連する報告書
  2020 実績報告書
[学会発表] BERT representations for video question answering2020
- 著者名/発表者名
  Zekun Yang, Noa Garcia, Chenhui Chu, Mayu Otani, Yuta Nakashima, and Haruo Takemura
- 学会等名
  IEEE Winter Conference on Applications of Computer Vision
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] KnowIT VQA: Answering knowledge-based questions about video2020
- 著者名/発表者名
  Noa Garcia, Chenhui Chu, Mayu Otani, and Yuta Nakashima
- 学会等名
  AAAI Conference on Artificial Intelligence
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] Adaptive gating mechanism for identifying visually grounded paraphrases2019
- 著者名/発表者名
  Mayu Otani, Chenhui Chu, and Yuta Nakashima
- 学会等名
  Multi-Discipline Approach for Learning Concepts
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] Rethinking the evaluation of video summaries2019
- 著者名/発表者名
  Mayu Otani, Yuta Nakashima, Esa Rahtu, and Janne Heikkila
- 学会等名
  IEEE Conference on Computer Vision and Pattern Recognition
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] Context-aware embeddings for automatic art analysis2019
- 著者名/発表者名
  Noa Garcia, Benjamin Renoust, and Yuta Nakashima
- 学会等名
  ACM International Conference on Multimedia Retrieval
- 関連する報告書
  2019 実績報告書 2018 実績報告書
- 国際学会
[学会発表] Video meets knowledge in visual question answering2019
- 著者名/発表者名
  Noa Garcia, Chenhui Chu, Mayu Otani, and Yuta Nakashima
- 学会等名
  第22回画像の認識・理解シンポジウム
- 関連する報告書
  2019 実績報告書
[学会発表] Collecting relation-aware video captions2019
- 著者名/発表者名
  Mayu Otani, Kazuhiro Ota, Yuta Nakashima, Esa Rahtu, Janne Heikkila, and Yoshitaka Ushiku
- 学会等名
  第22回画像の認識・理解シンポジウム
- 関連する報告書
  2019 実績報告書
[学会発表] Video question answering with BERT2019
- 著者名/発表者名
  Zekun Yang, Noa Garcia, Chenhui Chu, Mayu Otani, Yuta Nakashima, and Haruo Takemura
- 学会等名
  第22回画像の認識・理解シンポジウム
- 関連する報告書
  2019 実績報告書
[学会発表] コメディドラマにおける字幕と表情を用いた笑い予測2019
- 著者名/発表者名
  萓谷勇太, 大谷まゆ, Chenhui Chu, 中島悠太, 竹村治雄
- 学会等名
  2019年度人工知能学会全国大会
- 関連する報告書
  2019 実績報告書
[学会発表] Understanding art through multi-modal retrieval in paintings2019
- 著者名/発表者名
  Noa Garcia, Benjamin Renoust, and Yuta Nakashima
- 学会等名
  Language and Vision Workshop
- 関連する報告書
  2019 実績報告書
- 国際学会
[学会発表] Rethinking the evaluation of video summaries2019
- 著者名/発表者名
  Mayu Otani, Yuta Nakashima, Esa Rahtu, and Janne Heikkila
- 学会等名
  IEEE Computer Society Conference on Computer Vision and Pattern Recognition
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] iParaphrasing: Extracting visually grounded paraphrases via an image2018
- 著者名/発表者名
  Chenhui Chu, Mayu Otani, and Yuta Nakashima
- 学会等名
  27th International Conference on Computational Linguistics
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Phrase localization-based visually grounded paraphrase identification2018
- 著者名/発表者名
  Mayu Otani, Chenhui Chu, and Yuta Nakashima
- 学会等名
  第21回画像の認識・理解シンポジウム
- 関連する報告書
  2018 実績報告書
[学会発表] Visually grounded paraphrase extraction via phrase grounding2018
- 著者名/発表者名
  Mayu Otani, Chenhui Chu, and Yuta Nakashima
- 学会等名
  Workshop on Language and Vision at CVPR
- 関連する報告書
  2018 実績報告書
[備考] KnowIT VQA
- URL
  https://knowit-vqa.github.io/
- 関連する報告書
  2021 実績報告書
[備考] Art Description Generation
- URL
  https://sites.google.com/view/art-description-generation
- 関連する報告書
  2021 実績報告書
[備考] KnowIT VQA Paper
- URL
  https://knowit-vqa.github.io
- 関連する報告書
  2019 実績報告書
[備考] Knowledge VQA
- URL
  https://www.n-yuta.jp/project/knowledge-vqa/
- 関連する報告書
  2019 実績報告書

知識ベースを活用した視覚情報に関する質疑応答システムの実現

研究代表者

中島 悠太 大阪大学, データビリティフロンティア機構, 准教授 (70633551)

17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)

報告書

研究成果

[国際共同研究] University of Oulu/Tampere University(フィンランド)

関連する報告書

[国際共同研究] Carnegie Mellon University(米国)

関連する報告書

[国際共同研究] Tampere University/University of Oulu(フィンランド)

関連する報告書

[国際共同研究] University of Oulu/Tampere University(フィンランド)

関連する報告書

[国際共同研究] Tampere University/University of Oulu(フィンランド)

関連する報告書

[雑誌論文] The semantic typology of visually grounded paraphrases2022

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[雑誌論文] A comparative study of language transformers for video question answering2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Visually grounded paraphrase identification via gating and phrase localization2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Visually grounded paraphrase identification via gating and phrase localization2020

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ContextNet: Representation and exploration for painting classification and retrieval in context2019

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Quantifying societal bias amplification in image captioning2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transferring domain-agnostic knowledge in video question answering2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] GCNBoost: Artwork classification by label propagation through a knowledge graph2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Image retrieval by hierarchy-aware deep hashing based on multi- task learning2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Explain me the painting: Multi-topic knowledge- able art description generation2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Visual question answering with textual representations for images2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] The Laughing Machine: Predicting Humor in Video2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Uncovering Hidden Challenges in Query-Based Video Moment Retrieval2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] Knowledge-Based Visual Question Answering in Videos2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Dataset and Baselines for Visual Question Answering on Art2020

著者名/発表者名

学会等名

中島悠太大阪大学, データビリティフロンティア機構, 准教授 (70633551)