2018 年度研究成果報告書

可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用

研究課題

PDF

研究課題/領域番号	15K16019
研究種目	若手研究(B)
配分区分	基金
研究分野	知覚情報処理
研究機関	東京工業大学
研究代表者	井上中順東京工業大学, 情報理工学院, 助教 (10733397)
研究期間 (年度)	2015-04-01 – 2019-03-31
キーワード	深層学習 / 映像認識
研究成果の概要	本研究の主な成果は、画像とテキストデータを融合活用した映像認識手法を提案したことである。本手法は混合ガウス分布で単語ベクトルの分布を推定するものであり、単語ベクトルを用いて語彙拡張を行うことで、映像の意味的インデクシングの精度が向上することを示した。本成果に関する論文はACM Multimediaというマルチメディア情報処理分野の国際会議に採択されている。また、それに合わせて画像特徴量を効率的に算出するアルゴリズムを提案し、IEEE TPAMIというパターン認識分野の論文誌で発表を行った。これらの手法はTRECVID映像認識で評価されており、当初の目的であった映像認識システムの構築ができた。
自由記述の分野	マルチメディア情報処理
研究成果の学術的意義や社会的意義	本研究の成果は、映像や画像を認識するための人工知能技術に関するものである。画像データとテキストデータの情報を組み合わせることで、認識精度が向上することを示した。これは映像のどの部分に何があるかを詳細に検索する次世代の検索システムに役立つ技術である。