言語と視覚をつなぐ形式的意味表現の研究

研究課題

研究課題/領域番号	18H03268
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	東京大学
研究代表者	宮尾祐介東京大学, 大学院情報理工学系研究科, 教授 (00343096)
研究期間 (年度)	2018-04-01 – 2021-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円) 2020年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円) 2019年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円) 2018年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
キーワード	意味表現 / 自然言語処理 / 画像処理
研究成果の概要	本研究では、画像などの視覚情報に対して自然言語処理における意味解析技術を応用することを目標として、画像に対する意味表現の研究を行なった。具体的には、画像中のエンティティを認識してデータベース中のIDにリンクするエンティティリンキングと、画像の内容を表す意味表現を構成的に計算する技術の開発を行なった。また、画像と意味表現断片を入力として与えて説明文を生成するタスクを新たに設計し、画像の意味表現の有用性を示した。
研究成果の学術的意義や社会的意義	画像と言語をつなぐ技術は近年数多く研究されているが、そのほとんどは画像と言語を入出力として深層学習モデルを学習する手法である。この手法は大規模な学習データがあれば多くのタスクで高い精度を達成するが、学習データがない場合や、外部知識や推論を必要とする高度なタスクに適用することは難しい。提案手法のように画像に対して意味表現を得ることができれば、意味表現を利用した自然言語処理技術を応用する道が開け、さまざまな技術に発展することが期待できる。

報告書

(4件)

研究成果
(2件)

すべて 2021 2019

すべて雑誌論文 (2件) (うち査読あり 1件、オープンアクセス 1件)

[雑誌論文] Leveraging Partial Dependency Trees to Control Image Captions2021
- 著者名/発表者名
  Zhong Wenjie、Miyao Yusuke
- 雑誌名
  
  Proceedings of the Second Workshop on Advances in Language and Vision Research
  
  巻: 1 ページ: 16-21
- DOI
  10.18653/v1/2021.alvr-1.3
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 多様なデータと自然言語をつなぐ基盤技術2019
- 著者名/発表者名
  宮尾祐介
- 雑誌名
  
  学会誌「人工知能」特集「人間と相互理解できる次世代人工知能技術」
  
  巻: 34(6) ページ: 811-816
- NAID
  130007917664
- 関連する報告書
  2019 実績報告書

言語と視覚をつなぐ形式的意味表現の研究

研究代表者

宮尾 祐介 東京大学, 大学院情報理工学系研究科, 教授 (00343096)

17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)

報告書

研究成果

[雑誌論文] Leveraging Partial Dependency Trees to Control Image Captions2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 多様なデータと自然言語をつなぐ基盤技術2019

著者名/発表者名

雑誌名

NAID

関連する報告書

宮尾祐介東京大学, 大学院情報理工学系研究科, 教授 (00343096)