実世界記述のための、大規模時系列マルチモーダルデータを説明する自然文の自動生成

Research Project

Project/Area Number	13J07249
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Perception information processing/Intelligent robotics
Research Institution	The University of Tokyo
Principal Investigator	牛久祥孝東京大学, 大学院情報理工学系研究科, 特別研究員(DC2)
Project Period (FY)	2013
Project Status	Completed (Fiscal Year 2013)
Budget Amount *help	¥900,000 (Direct Cost: ¥900,000) Fiscal Year 2013: ¥900,000 (Direct Cost: ¥900,000)
Keywords	オンライン線形分類学習 / 一般画像認識 / 自然言語処理 / 自然言語生成 / 部分空間法 / マルチスタックビームサーチ
Research Abstract	近年、画像に写っている事物を複数のラベルで表現するのみならず、それらの関係を包含する自然言語の文として入力画像を説明する手法の研究が脚光を浴びつつある。従来の研究では、それぞれの画像において「どのような物体が」「どのような光景のもと」「どのような動作を」行っているか、などの情報がついたラベルを伴う画像を学習し、新規画像に対する説明文を生成していた。さまざまな画像を説明するには大規模な画像データセットの構築が必要となるが、そのような大量の画像に同様のラベルを付与するのは極めて困難である。そこで平成25年度では、画像とその説明文のみからなるデータセットを用いて新規画像の説明文を生成する手法を提案した。具体的には、「画像の内容はいくつかのキーフレーズで表現でき、これらを単純な文法モデルで正しく繋げば説明文を生成できる」という仮説をたて、画像と説明文のみからなるデータセットを用いて入力画像のキーフレーズを推定するマルチキーフレーズ問題を新たに提起した。具体的な研究としては、1. 機械学習としてのキーフレーズ推定手法、2. 画像からのキーフレーズ推定、3. 大規模データからの文法モデルの構築、4. 文法モデルとフレーズを組み合わせての文生成手法の確立、の4つに取り組んだ。最終的に、実際に画像と説明文からなるデータセットを用い、収集コストの高いセマンティックな知識が無くとも画像の説明文が生成可能であることを確認した。人手で付与しなければならないマルチプレットやバウンディングボックスを用いず、画像と文章のみのデータセットで関連研究より高精度に説明文を生成できた。さらに、キーフレーズ推定精度が改善されることで、説明文の精度も改善されることを確認した。また、Webから収集されたデータセットの規模を変えながら説明文生成を行った結果、データセットの規模が増えるに従って説明文の精度も向上した。
Strategy for Future Research Activity	(抄録なし)

Report

(1 results)

2013 Annual Research Report

Research Products

(3 results)

All 2014 Other

All Presentation (2 results) Remarks (1 results)

[Presentation] Hard Negative Classes for Multiple Object Detection2014
- Author(s)
  Asako Kanezaki, Sho Inaba, Yoshitaka Ushiku, Yuya Yamashita, Hiroshi Muraoka, Yasuo Kuniyoshi, and Tatsuya Harada.
- Organizer
  2014 IEEE International Conference on Robotics and Automation (accepted)
- Place of Presentation
  中国、香港(発表確定)
- Related Report
  2013 Annual Research Report
[Presentation] Three Guidelines of Online Learning for Large-Scale Visual Recognition2014
- Author(s)
  Yoshitaka Ushiku, Masatoshi Hidaka and Tatsuya Harada.
- Organizer
  The Twenty-Seventh IEEE Computer Society Conference on Computer Vision and Pattern Recognition (accepted)
- Place of Presentation
  アメリカ、コロンブス(発表確定)
- Related Report
  2013 Annual Research Report
[Remarks] 研究室のwebページ
- URL
  http://www.mi.t.u-tokyo.ac.jp/
- Related Report
  2013 Annual Research Report

実世界記述のための、大規模時系列マルチモーダルデータを説明する自然文の自動生成

Principal Investigator

牛久 祥孝 東京大学, 大学院情報理工学系研究科, 特別研究員(DC2)

¥900,000 (Direct Cost: ¥900,000)

Report

Research Products

[Presentation] Hard Negative Classes for Multiple Object Detection2014

Author(s)

Organizer

Place of Presentation

Related Report

[Presentation] Three Guidelines of Online Learning for Large-Scale Visual Recognition2014

Author(s)

Organizer

Place of Presentation

Related Report

[Remarks] 研究室のwebページ

URL

Related Report

牛久祥孝東京大学, 大学院情報理工学系研究科, 特別研究員(DC2)