研究実績の概要 |
大規模なデータベースで学習された畳込ニューラルネット(CNN)の中間出力を他タスクへの特徴量として転用するCNN特徴転移は、学習元のタスクと適用タスクの性質が類似する場合に限り特に高い性能を発揮するため,学習データベースの選定が重要となる. 画像認識の認識対象は,複数の意味概念の集まりであるため、高精度な認識を実現するためには,従来のように単一のデータベースのみで学習されたCNN特徴を転用するのみでは不十分である. 本研究では, 複数の大規模データベースで学習されたCNNを融合し, 多様なタスクへ転用可能な汎用的な特徴抽出手法を探求する. 平成29年度は主に異なるカメラ間で同一人物を検索するタスクにおけるCNN特徴転移の基盤手法を開発した. まず,学習データベースの位置情報に強い影響を受ける全結合層と比較して,位置情報の影響を受けにくい畳み込み層の特徴は適用先のデータベースへの汎用性が高いことを確認した. この解析に基づき, 異なるカメラ毎に畳み込み層の特徴を判別的に集積する手法を開発し, 50層の深いCNNに適用することにより, 学習サンプルの少ないデータベースにおいて他の最新手法を上回る照合を実現した. この開発手法は,原理上,人物の姿勢推定用のデータベースで学習されたCNNと自然に融合することが可能であり, 更に性能改善が可能な見通しである. また,複数データベースで学習されたCNN 特徴を融合する際,特徴量の値を適切にスケーリングすることで, 融合を改善する方策を考案した.
|