従来のDCGANやpix2pixでは1つの生成器と1つの識別器を利用していた。ここでは複数の種類の異なる識別器を用いた場合にどうなるかを検討した。識別器の種類が異なると判断する基準が違うので、それぞれ得意なクラスがあり、それらを統合することにより、従来法よりも精度を向上させた。この考え方をさらに発展させ、クラス毎に生成器と識別器を用意する方法も提案した。複数の生成器と識別器を用いた場合でも精度を向上させることができ、複数のネットワークを統合することの有効性を示した。また、複数の学習済の生成器から情報を受け取る方法も検討した。 一般に独立に学習したdeep neural networkのアンサンブルは精度を向上させる。しかし、学習画像の枚数が多かったり、ネットワークが複雑な場合には学習に時間がかかる。従って、これを独立に5回学習する場合、かなりの時間を要する。ここでは一回の学習の過程で得られるモデルのアンサンブルを考えた。衛星画像からの道路や建物の検出問題において有効性を示した。 また、ネットワークの途中から特徴マップを分岐させて特徴マップのどこを重要視すれば良いかと自動的に学習するattention機構も一種の複数ネットワークの統合とみなすことができる。ここでは、位置とチャンネルの両方をattentionする方法や、層間でのattention、識別の観点からのattentionなどいくつかの方法を考案し、実験により有効性を示した。さらに、難易度に着目してattentionをしたり、学習を早く進めたりする方法も提案した。
|