可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究課題

研究課題/領域番号	15K16019
研究種目	若手研究(B)
配分区分	基金
研究分野	知覚情報処理
研究機関	東京工業大学
研究代表者	井上中順東京工業大学, 情報理工学院, 助教 (10733397)
研究期間 (年度)	2015-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	3,900千円 (直接経費: 3,000千円、間接経費: 900千円) 2018年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2017年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2016年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2015年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	深層学習 / 映像認識 / パターン認識
研究成果の概要	本研究の主な成果は、画像とテキストデータを融合活用した映像認識手法を提案したことである。本手法は混合ガウス分布で単語ベクトルの分布を推定するものであり、単語ベクトルを用いて語彙拡張を行うことで、映像の意味的インデクシングの精度が向上することを示した。本成果に関する論文はACM Multimediaというマルチメディア情報処理分野の国際会議に採択されている。また、それに合わせて画像特徴量を効率的に算出するアルゴリズムを提案し、IEEE TPAMIというパターン認識分野の論文誌で発表を行った。これらの手法はTRECVID映像認識で評価されており、当初の目的であった映像認識システムの構築ができた。
研究成果の学術的意義や社会的意義	本研究の成果は、映像や画像を認識するための人工知能技術に関するものである。画像データとテキストデータの情報を組み合わせることで、認識精度が向上することを示した。これは映像のどの部分に何があるかを詳細に検索する次世代の検索システムに役立つ技術である。

報告書

(5件)

研究成果
(6件)

すべて 2018 2016 2015

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 1件、謝辞記載あり 1件) 学会発表 (4件) (うち国際学会 2件、招待講演 1件)

[雑誌論文] [Invited Paper] Semantic Indexing for Large-Scale Video Retrieval2016
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 雑誌名
  
  ITE Transactions on Media Technology and Applications
  
  巻: 4 号: 3 ページ: 209-217
- DOI
  10.3169/mta.4.209
- NAID
  130005161897
- ISSN
  2186-7364
- 関連する報告書
  2016 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Fast Coding of Feature Vectors using Neighbor-To-Neighbor Search2015
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 雑誌名
  
  IEEE Transactions on Pattern Analysis and Machine Intelligence
  
  巻: 99 号: 6 ページ: 1-16
- DOI
  10.1109/tpami.2015.2481390
- NAID
  120006582446
- 関連する報告書
  2015 実施状況報告書
- 査読あり / 謝辞記載あり
[学会発表] Activity Detection in Extended Video using Action Tubelets (VANT at TRECVID 2018)2018
- 著者名/発表者名
  Nakamasa Inoue, Chihiro Shiraishi, Aleksandr Drozd, Koichi Shinoda, Shi-wook Lee, Alex Chichung Kot
- 学会等名
  TRECVID
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] 画像・映像認識2018
- 著者名/発表者名
  井上中順
- 学会等名
  人工知能学会
- 関連する報告書
  2018 実績報告書
- 招待講演
[学会発表] 単語ベクトルによる語彙拡張を用いた映像のセマンティックインデクシング2015
- 著者名/発表者名
  井上中順, 篠田浩一
- 学会等名
  電子情報通信学会 PRMU研究会
- 発表場所
  信州大学
- 年月日
  2015-12-21
- 関連する報告書
  2015 実施状況報告書
[学会発表] Vocabulary Expansion Using Word Vectors for Video Semantic Indexing2015
- 著者名/発表者名
  Nakamasa Inoue, Koichi Shinoda
- 学会等名
  ACM Multimedia
- 発表場所
  Brisbane, AUS
- 年月日
  2015-10-26
- 関連する報告書
  2015 実施状況報告書
- 国際学会

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究代表者

井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)

3,900千円 (直接経費: 3,000千円、間接経費: 900千円)

報告書

研究成果

[雑誌論文] [Invited Paper] Semantic Indexing for Large-Scale Video Retrieval2016

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[雑誌論文] Fast Coding of Feature Vectors using Neighbor-To-Neighbor Search2015

著者名/発表者名

雑誌名

DOI

NAID

関連する報告書

[学会発表] Activity Detection in Extended Video using Action Tubelets (VANT at TRECVID 2018)2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 画像・映像認識2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] 単語ベクトルによる語彙拡張を用いた映像のセマンティックインデクシング2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Vocabulary Expansion Using Word Vectors for Video Semantic Indexing2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

井上中順東京工業大学, 情報理工学院, 助教 (10733397)