本研究の目的は相互に関係を持つ文書や画像などの異種情報を統合する特徴表現モデルを確立し、このようなモデルを用いることにより単一種類の情報だけでは困難なタスクを実現することである。
本年度の研究では、画像と文書情報の統合に関する研究を行った。まず画像特徴としてCNN、文書部分についてはBoW(bag of words)表現を入力として、得られるDBMによる統合層の表現が画像カテゴリ識別特徴として有用であることの検証を昨年同様行い、文書のstop words除去、stemmingにより若干性能向上することを確認した。この表現方法の場合、BoWを用いているため、つながりに意味のある文章に関する統合表現とは言えない。そこで、Kirosらの提唱している、画像をCNNで、文章をLSTM回帰結合ネットワークで変換し、両者の統合ベクトル空間への写像を学習することで統合表現を得る手法を用い、画像検索の高度化を図った。特に検索された画像に対して、追加したい属性、削除したい属性を表す単語の加算・減算の形で表現し、統合ベクトル空間におけるこれらの属性変更を表す差分ベクトルと画像間の変動を表す差分ベクトルの類似度に基づいて画像検索結果を更新する手法を考案し良好な結果を得た。
このときCNNには画像識別用に学習されたものを用いているが、識別能力が高いCNNは層の数も多数となる。本年度は、CNNが与えられたときに、そのパラメータを削減し、全体の処理時間を高速化するための研究も実施した。本研究では層単位の圧縮を考え、ネットワークをm層毎に区分し、これらをdistillation法によりn層(n<m)にまず圧縮し、最終的にこれらを統合して全体の学習を行う手法を考案し、実験を行った。CIFAR100を用いた検証実験により、識別能力を保持したままCV層数を13から5に圧縮できることを確認した。
|