ワンショット学習の枠組みとして、group-based variational autoencoderを開発した。画像などの個別データがグループ化されたデータから、グループに共通の因子は「内 容」、それ以外の差分因子は「変形」と して推定できるようにし、確率モデルとして定式化し、variational aueoncoderの方法論に則って学習アルゴリズムを設計した。顔画像など3D物体の画像データセッ トを5種類用意し、この手法を適用したところ、期待されたように内容と変形の因子を分離して推定できた。定量化するため、新規の内容を持つテストデータを用意し、内容と変形の分離性能を測定した。ここでワンショットのクラス分別性能をはかるという手法をとった。既存手法である基本的なvariaitonal aueoncoderと、multi-level variational autoencoderと、比較した。その結果、前者に対しては5種類のデータセットとも、後者に対しては4種類のデータセットに関して、性能を凌駕した。さらに、性能差の原因を探るための解析も行い、特にmulti-level variational autoencoderにおいては内容因子の情報が変形変数に漏れ出ていることを明らかにすることを突き止めた。
|