研究課題/領域番号 |
18H03268
|
研究機関 | 東京大学 |
研究代表者 |
宮尾 祐介 東京大学, 大学院情報理工学系研究科, 教授 (00343096)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 意味表現 / 自然言語処理 / 画像処理 |
研究実績の概要 |
本年度は、画像・映像データに対する 1. エンティティリンキングと 2. 構成的意味計算の2つの技術について、以下の研究を行った。 1. エンティティリンキングについては、学習および評価データとして、エンティティに対して自然言語テキストと画像データが紐づけられた大規模データセットの構築を進めた。具体的には、Wikipedia のページをエンティティとし、各ページとリンクされている Wikimedia の画像データをクロールすることで、Wikipedia テキストと画像データが紐づけられたデータを構築した。ただし、Wikipedia のダンプデータにはエンティティ以外に様々なページが存在し、紐づけられた画像データに不適切なものが大量に含まれることが判明した。そこで、Wikipedia のページデータを用いてフィルタリングを行い、エンティティに相当するページと紐づいた画像のみをデータセットとする処理を行った。今後は、得られたデータセットの品質評価・分析を行う予定である。 2. 構成的意味計算については、入力画像に対して単語およびその関係を認識するモデルについて研究を進めた。既存研究では、画像中の物体認識を行い、さらに物体間の関係や物体の属性の認識を行う。一方本研究では、物体に限らず画像の内容を表すのに適切な「単語」(名詞だけでなく動詞、形容詞、副詞を含む)を認識し、さらにそれらの間の依存関係を認識することで、自然言語の意味表現である述語項構造に対応するグラフ構造を認識する。この手法について、学習データの精緻化等を行い、認識精度の向上を実現した。また、構成的意味計算の応用の一つとして、入力画像に加えて単語あるいは依存関係を与えることで画像説明文生成をコントロールする手法の研究開発を行い、その有効性の評価を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
上述の研究項目1, 2について、進捗状況は以下の通りである。 1については、当初目標であった画像のエンティティリンキングのためのデータセットの構築を行った。Wikipedia ダンプデータにエンティティ以外のページが大量に含まれるという当初想定していなかった問題が発生したが、それらのページをフィルタリングする手法を実装し、ある程度のクオリティのデータセットを実現した。本データセットは、エンティティリンキングモデルの学習・評価に用いる予定である。 2については、当初目標であった画像に対する構成的意味計算手法の高精度化の研究を行った。入力画像に対して単語とそれらの間の依存関係を認識する手法について研究を行い、キャプション文から単語・依存関係を抽出するプログラムの改良により学習データの精緻化を行ったこと、さらに画像処理における一般物体認識の最先端手法を応用することで、単語・依存関係の認識精度を大幅に向上させた。さらに、単語・依存関係を利用する応用として、単語・依存関係を指定することにより画像説明文生成をコントロールする手法を提案し、その有効性を示した。
|
今後の研究の推進方策 |
1については、構築したエンティティリンキングデータセットの評価・分析を行う予定である。また、その先には、入力画像に対してエンティティを自動認識する手法の開発・評価を進める予定である。 2については、単語・依存関係認識の精度をさらに向上させることを目指し、特に学習データに現れない、あるいは低頻度な単語・依存関係の認識に必要な技術あるいはデータについて検討を進める。また、構造的意味表現の応用タスクを設計し、単語・依存関係を利用した画像理解手法の有効性を評価することを目指す。
|