2020 年度実績報告書

言語概念のマルチメディアへのグラウンディングに基づく世界知識構築

研究課題

研究課題/領域番号	19H04166
研究機関	東京大学
研究代表者	中山英樹東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	自然言語処理 / 画像認識 / シーングラフ / 知識獲得 / 知識グラフ / ストーリー生成
研究実績の概要	本研究では、画像・動画像等のマルチメディアに言語概念をグラウンディング（記号接地）させ、時空間的な共起関係を手掛かりにさまざまな概念間の関連性を推定し、グラフ構造を有するデータベース（知識グラフ）として獲得する新しいアプローチを提案する。本年度は、大きく分けて以下に示す二つの成果を得た。まず、昨年度に開発した教師なし物体間関連性推定手法の拡張を行った。本手法は昨年度時点では、指定された二物体間の関連性を推定することしかできず、物体自体は明示的に与える必要があった。本年度はこれを物体検出手法と統合することで、画像から自動的に複数の物体間関連性情報を抽出できるように拡張した。これにより、個々の物体を手掛かりとして物体間関連性情報を組み合わせることで、画像のシーングラフを出力することが可能となった。さらに、学習の枠組みとして教師なし学習のみならず、半教師付き学習も扱えるように手法の一般化を行った。特に、半教師付き学習では、ラベル付きデータのみを用いた教師付き学習を上回る性能となり、ラベルなしデータを活用できる提案手法の枠組みが有効に働くことが示された。提案手法の一部を、国際会議IEEE ICIP 2020において発表した。また、自然言語処理において知識グラフを活用するダウンストリームタスクとして、視覚的ストーリー生成(visual story telling)の手法開発を行った。本手法は、視覚情報を足掛かりにConceptNet等の知識グラフ上の探索を行うことにより、単に画像の記述にとどまらない多様なストーリーを生成することが可能である。本手法およびタスクは、本研究において開発されるマルチメディア知識DBを活用・評価するための有力なテストベッドとなることが期待される。本手法の内容は、人工知能のトップ国際会議であるAAAI 2021において発表された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由画像データからの知識獲得において要となるシーングラフ生成手法は完成し、半教師付き学習の枠組みにより、教師データに存在しない物体間関連性を含むさまざまな関連性情報を出力することが可能となった。また、ベースとなる畳み込みニューラルネットワークの改良技術も複数開発し、ECCVやIJCNNなどの有力国際会議に採択されるなど良好な成果を得た。一方で、最終的に目的としている常識的知識獲得においては、BERTやGPT-3に代表される事前学習済言語モデルが近年驚異的な性能を発揮するようになったことから、当初計画よりも慎重な調査と戦略が必要である。知識グラフの活用と評価の方法に関しては、視覚的ストーリー生成を題材として良いタスク設定と手法が提案でき、プロジェクト全体の出口設計ができたと考える。本手法はトップ国際会議であるAAAIに採択されるなど、その先見性について高い評価を得ている。以上まとめると、知識獲得アルゴリズムについては近年の技術革新に対応しながら検討を続ける必要があるが、基盤となる画像認識技術や知識の活用方法については完成された成果が得られ、全体として十分な進捗を得たと考える。
今後の研究の推進方策	まず、個々の画像から得られるシーングラフを大量に集積し、抽象的な知識データベースへと集約する技術の開発に注力する。この際、マルチモーダルなTransformerによる事前学習済モデルから陰に得られる知識と連携させることで、広範かつ高精度な知識グラフを構築することを目指す。また、得られた知識グラフを定性的に評価すると共に、既に開発したストーリー生成手法へ接続することで定量的な評価を行う。

研究成果
(9件)

すべて 2021 2020

すべて雑誌論文 (4件) (うち査読あり 4件) 学会発表 (5件) (うち国際学会 3件)

[雑誌論文] Commonsense Knowledge Aware Concept Selection for Diverse and Informative Visual Storytelling2021
- 著者名/発表者名
  Hong Chen, Yifei Huang, Hiroya Takamura, and Hideki Nakayama
- 雑誌名
  
  Proceedings of the 35th AAAI Conference on Artificial Intelligence (AAAI)
  
  巻: - ページ: -
- 査読あり
[雑誌論文] DCT-based Fast Spectral Convolution for Deep Convolutional Neural Networks2021
- 著者名/発表者名
  Yuhao Xu, Hideki Nakayama
- 雑誌名
  
  Proceedings of the International Joint Conference on Neural Networks (IJCNN)
  
  巻: - ページ: -
- 査読あり
[雑誌論文] Faster AutoAugment: Learning Augmentation Strategies using Backpropagation2020
- 著者名/発表者名
  Ryuichiro Hataya, Zdenek Jan, Kazuki Yoshizoe, Hideki Nakayama
- 雑誌名
  
  Computer Vision - ECCV 2020
  
  巻: LNCS 12370 ページ: 1-16
- DOI
  10.1007/978-3-030-58595-2_1
- 査読あり
[雑誌論文] Unsupervised Visual Relationship Inference2020
- 著者名/発表者名
  Taiga Kashima, Kento Masui, Hideki Nakayama
- 雑誌名
  
  Proceedings of the IEEE International Conference on Image Processing (ICIP)
  
  巻: - ページ: 1476-1480
- DOI
  10.1109/icip40778.2020.9190770
- 査読あり
[学会発表] Commonsense Knowledge Aware Concept Selection for Diverse and Informative Visual Storytelling2021
- 著者名/発表者名
  Hong Chen, Yifei Huang, Hiroya Takamura, and Hideki Nakayama
- 学会等名
  AAAI Conference on Artificial Intelligence
- 国際学会
[学会発表] Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling2021
- 著者名/発表者名
  Hong Chen, Yifei Huang, Hiroya Takamura, and Hideki Nakayama
- 学会等名
  言語処理学会第27回年次大会
[学会発表] Faster AutoAugment: Learning Augmentation Strategies using Backpropagation2020
- 著者名/発表者名
  Ryuichiro Hataya, Zdenek Jan, Kazuki Yoshizoe, Hideki Nakayama
- 学会等名
  European Conference on Computer Vision (ECCV)
- 国際学会
[学会発表] Unsupervised Visual Relationship Inference2020
- 著者名/発表者名
  Taiga Kashima, Kento Masui, Hideki Nakayama
- 学会等名
  IEEE International Conference on Image Processing (ICIP)
- 国際学会
[学会発表] Incorporating Horizontal Connections in Convolution by Spatial Shuffling2020
- 著者名/発表者名
  Ikki Kishida, Hideki Nakayama
- 学会等名
  第23回画像の認識・理解シンポジウム (MIRU)

2020 年度 実績報告書

言語概念のマルチメディアへのグラウンディングに基づく世界知識構築

研究代表者

中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Commonsense Knowledge Aware Concept Selection for Diverse and Informative Visual Storytelling2021

著者名/発表者名

雑誌名

[雑誌論文] DCT-based Fast Spectral Convolution for Deep Convolutional Neural Networks2021

著者名/発表者名

雑誌名

[雑誌論文] Faster AutoAugment: Learning Augmentation Strategies using Backpropagation2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Unsupervised Visual Relationship Inference2020

著者名/発表者名

雑誌名

DOI

[学会発表] Commonsense Knowledge Aware Concept Selection for Diverse and Informative Visual Storytelling2021

著者名/発表者名

学会等名

[学会発表] Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling2021

著者名/発表者名

学会等名

[学会発表] Faster AutoAugment: Learning Augmentation Strategies using Backpropagation2020

著者名/発表者名

学会等名

[学会発表] Unsupervised Visual Relationship Inference2020

著者名/発表者名

学会等名

[学会発表] Incorporating Horizontal Connections in Convolution by Spatial Shuffling2020

著者名/発表者名

学会等名

2020 年度実績報告書

中山英樹東京大学, 大学院情報理工学系研究科, 准教授 (00643305)