研究課題
基盤研究(B)
本研究では、画像などの視覚情報に対して自然言語処理における意味解析技術を応用することを目標として、画像に対する意味表現の研究を行なった。具体的には、画像中のエンティティを認識してデータベース中のIDにリンクするエンティティリンキングと、画像の内容を表す意味表現を構成的に計算する技術の開発を行なった。また、画像と意味表現断片を入力として与えて説明文を生成するタスクを新たに設計し、画像の意味表現の有用性を示した。
自然言語処理
画像と言語をつなぐ技術は近年数多く研究されているが、そのほとんどは画像と言語を入出力として深層学習モデルを学習する手法である。この手法は大規模な学習データがあれば多くのタスクで高い精度を達成するが、学習データがない場合や、外部知識や推論を必要とする高度なタスクに適用することは難しい。提案手法のように画像に対して意味表現を得ることができれば、意味表現を利用した自然言語処理技術を応用する道が開け、さまざまな技術に発展することが期待できる。