研究課題/領域番号 |
18H03268
|
研究機関 | 東京大学 |
研究代表者 |
宮尾 祐介 東京大学, 大学院情報理工学系研究科, 教授 (00343096)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 意味表現 / 自然言語処理 / 画像処理 |
研究実績の概要 |
本年度は、画像・映像データに対する 1. エンティティリンキング、2. 構成的意味計算、3. 応用タスクの設計と評価について、以下の研究を行った。 1. エンティティリンキングについては、画像・映像中の固有物を認識し、オントロジーやデータベースにリンクする手法の研究を行う。例えば、映像中の人物等に対し、“Hillary_Clinton” といったエンティティ名を認識する手法を目指す。一般物体認識モデルを応用する手法、固有物体を認識する手法などを検証し、本タスクに対する有用性を評価する。これと並行して、画像とエンティティの大規模データのクリーニングを行い、広く一般的に利用できるデータとして整備を進める。 2. 構成的意味計算については、画像が表す内容を自然言語文の意味表現であり述語項構造で表す手法について研究を行う。前年度の成果に引き続き、低頻度の述語項関係の認識の高精度化について研究を進める。また、研究1の成果と組み合わせ、エンティティを含めた意味表現を認識する手法について検討を進める。 3. 応用タスクの設計と評価については、提案手法の有効性を客観的に評価するため、応用タスクを設計し、評価実験を行う。画像の意味表現を利用したタスクとして、画像と意味表現の断片を入力して説明文を生成するタスクなどを検討し、タスク定義とデータ整備を行う。また、意味表現の汎用性を評価するため、end-to-end の学習データが少ない、あるいは全くないタスク設定について検討を進める。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
上述の研究項目1, 2, 3について、進捗状況は以下の通りである。 1については、Wikimediaから構築した画像とエンティティがペアになったデータを用いて、エンティティリンキングの実験を行った。大量の画像から固有物体を認識する手法をベースとして、画像認識の特徴量あるいは一般物体認識モデルから得られる特徴量を用いてk近傍法を適用する手法を用いた。実験結果から、一般物体認識の精度と比べると本タスクの精度は低く、本タスクの難しさが明らかとなった。 2については、既存データベースを用いて述語項関係を拡張・認識する手法について検討を進めた。予備実験では、本手法により述語項関係の認識精度が向上することが示された。ただし、低頻度あるいは学習データに現れない述語項関係について認識精度が低い問題が残っており、引き続き研究の余地がある。 3については、画像に加えて主語-述語といった依存関係を入力として与えることで画像説明文生成をコントロール手法について改良を進めた。入力の依存関係から依存構造木を復元することにより、説明文のクオリティを落とすことなく、説明文生成のコントロール能力を向上させることに成功した。本タスクについては引き続き評価実験等を行い、その有効性を示す予定である。
|
今後の研究の推進方策 |
今後は、1, 2については引き続きエンティティリンキングおよび述語項関係認識の精度向上が課題となるが、それに加えてこれらを統合する手法について研究を進める。単純につなげる手法としてはこれら各手法をパイプラインでつなげるものがある。ただし、述語項構造のノードとエンティティを対応させることは自明でなく、新たな手法を検討する必要がある。また、これらの手法を統合的に解く手法についても検討を行う。 応用として、3で研究を行った画像説明文生成の評価実験をさらに進め、画像の内容を離散的な意味表現で表す手法の有効性を実証する。そのためには、入力と出力とをニューラルネットワークで直接つなげて end-to-end で学習を行う手法との比較検討を行い、提案手法による性能向上について分析を行う。
|