実世界記述のための、大規模時系列マルチモーダルデータを説明する自然文の自動生成
Project/Area Number |
13J07249
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Research Field |
Perception information processing/Intelligent robotics
|
Research Institution | The University of Tokyo |
Principal Investigator |
牛久 祥孝 東京大学, 大学院情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2013
|
Project Status |
Completed (Fiscal Year 2013)
|
Budget Amount *help |
¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2013: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | オンライン線形分類学習 / 一般画像認識 / 自然言語処理 / 自然言語生成 / 部分空間法 / マルチスタックビームサーチ |
Research Abstract |
近年、画像に写っている事物を複数のラベルで表現するのみならず、それらの関係を包含する自然言語の文として入力画像を説明する手法の研究が脚光を浴びつつある。従来の研究では、それぞれの画像において「どのような物体が」「どのような光景のもと」「どのような動作を」行っているか、などの情報がついたラベルを伴う画像を学習し、新規画像に対する説明文を生成していた。さまざまな画像を説明するには大規模な画像データセットの構築が必要となるが、そのような大量の画像に同様のラベルを付与するのは極めて困難である。 そこで平成25年度では、画像とその説明文のみからなるデータセットを用いて新規画像の説明文を生成する手法を提案した。具体的には、「画像の内容はいくつかのキーフレーズで表現でき、これらを単純な文法モデルで正しく繋げば説明文を生成できる」という仮説をたて、画像と説明文のみからなるデータセットを用いて入力画像のキーフレーズを推定するマルチキーフレーズ問題を新たに提起した。具体的な研究としては、1. 機械学習としてのキーフレーズ推定手法、2. 画像からのキーフレーズ推定、3. 大規模データからの文法モデルの構築、4. 文法モデルとフレーズを組み合わせての文生成手法の確立、の4つに取り組んだ。 最終的に、実際に画像と説明文からなるデータセットを用い、収集コストの高いセマンティックな知識が無くとも画像の説明文が生成可能であることを確認した。人手で付与しなければならないマルチプレットやバウンディングボックスを用いず、画像と文章のみのデータセットで関連研究より高精度に説明文を生成できた。さらに、キーフレーズ推定精度が改善されることで、説明文の精度も改善されることを確認した。また、Webから収集されたデータセットの規模を変えながら説明文生成を行った結果、データセットの規模が増えるに従って説明文の精度も向上した。
|
Strategy for Future Research Activity |
(抄録なし)
|
Report
(1 results)
Research Products
(3 results)