近年、画像に写っている事物を複数のラベルで表現するのみならず、それらの関係を包含する自然言語の文として入力画像を説明する手法の研究が脚光を浴びつつある。従来の研究では、それぞれの画像において「どのような物体が」「どのような光景のもと」「どのような動作を」行っているか、などの情報がついたラベルを伴う画像を学習し、新規画像に対する説明文を生成していた。さまざまな画像を説明するには大規模な画像データセットの構築が必要となるが、そのような大量の画像に同様のラベルを付与するのは極めて困難である。 そこで平成25年度では、画像とその説明文のみからなるデータセットを用いて新規画像の説明文を生成する手法を提案した。具体的には、「画像の内容はいくつかのキーフレーズで表現でき、これらを単純な文法モデルで正しく繋げば説明文を生成できる」という仮説をたて、画像と説明文のみからなるデータセットを用いて入力画像のキーフレーズを推定するマルチキーフレーズ問題を新たに提起した。具体的な研究としては、1. 機械学習としてのキーフレーズ推定手法、2. 画像からのキーフレーズ推定、3. 大規模データからの文法モデルの構築、4. 文法モデルとフレーズを組み合わせての文生成手法の確立、の4つに取り組んだ。 最終的に、実際に画像と説明文からなるデータセットを用い、収集コストの高いセマンティックな知識が無くとも画像の説明文が生成可能であることを確認した。人手で付与しなければならないマルチプレットやバウンディングボックスを用いず、画像と文章のみのデータセットで関連研究より高精度に説明文を生成できた。さらに、キーフレーズ推定精度が改善されることで、説明文の精度も改善されることを確認した。また、Webから収集されたデータセットの規模を変えながら説明文生成を行った結果、データセットの規模が増えるに従って説明文の精度も向上した。
|