2021 Fiscal Year Research-status Report
Data augmentation and domain adaptation using the latent space of the deep generative model
Project/Area Number |
19K12164
|
Research Institution | Ritsumeikan University |
Principal Investigator |
西川 郁子 立命館大学, 情報理工学部, 教授 (90212117)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 深層生成モデル / 潜在空間 / 異常検知 / ドメイン適応 / データ拡張 / 敵対的学習 / エントロピー |
Outline of Annual Research Achievements |
深層生成モデルの潜在空間として、変分自己符号化器(VAE)や自己符号化器(AE)、敵対的学習による符号化器やデータ生成器などで特徴量表現を獲得し、ドメイン適応や疑似データ生成の手法提案や、時系列データにおける異常検知などを実現した。 ドメイン適応(DA)は、ソースドメインとターゲットドメインにおけるクラス集合の包含関係に応じて、4種に分類できる。その中でまず、最も単純な両クラス集合が一致するclosed-set DAに対しては、輸送距離最小化で定義されるWasserstein距離の有効性、特に画像分類課題における有効性を実験的に検証し、手書き風地図画像での領域マッチングに適用した。また、ターゲットクラス集合が包含するpartial DAに対しては、敵対的学習によるクラス別のデータ分布判別器を導入した手法を新たに提案し、個別ターゲットデータの各クラスへの帰属度を推定することで、安定して高精度な適応を実現した。さらに、それを発展させ、クラス集合の包含関係に前提を設けないopen-set DAに対して、2種のデータ分布判別器を導入し、分布間密度比によるエントロピー推定法を提案した。 時系列データにおける形態および時間発展の異常検知の事例適用として、VAEやAEの潜在空間を用いた。生物の逆遺伝学では、個別遺伝子の発現を予め抑制した個体において検知される表現型異常から、対応する遺伝子の機能を推定するが、多数の表現型特徴量を事前に設計しない機械学習の貢献を目指した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
DAでは、以下をそれぞれ進めた。Closed-set DAに対しては、Wasserstein距離を用いて、地図画像における道路のセグメンテーションを行い、画像情報のみから任意の地図領域の位置同定に繋げることを目指した。ベクトル形式で各種地図情報を保持している地図データベースから、複数のスタイルや道路幅での画像を出力し、ソースドメインでの学習に用いた上で、イラストマップなどの地図画像をターゲットとしてドメイン適応を行い、道路セグメンテーションを実現した。そこからさらに、交差点群を抽出し、交差点群の一致度から、地図領域間の一致度を定量化し、位置同定に用いる。地図画像対を入力として一致度を出力する双子型ネットワークを構築し、回転や位置ずれへの対応を検討した。Partial DAに対しては、敵対的学習によるクラス別のデータ分布判別器を導入した手法を提案し、ターゲットの各データに対するクラス帰属度の推定を可能とした。これにより、試行依存性の低い安定で高精度な適応が可能になることをベンチマーク課題で確認した。Open-set DAに対しては、その手法を発展させ、クラス別のデータ分布判別器を用いて、分布間密度比によるエントロピー推定法を提案した。従来からの分類器によるエントロピー推定と比較して、特に既知クラスに属さないデータに対する有効性を実験的に検証し、それによる分類精度の向上を示した。 時系列データに対する異常検知の事例適用として、以下を実施した。モデル生物である線虫の初期胚発生過程の動態データベースにおいて、2細胞期に限定して学習器を構築した。公開されている野生胚データを正常データとして学習に用いることで、RNAi操作によって個別遺伝子を機能抑制したデータにおける再構築誤差や潜在空間上の位置から、形態や発生過程の異常を定量化した。
|
Strategy for Future Research Activity |
・DAで提案したクラス別のデータ分布判別器を用いたエントロピー推定法は、教師なし学習や半教師あり学習でも有効だと期待され、そこでの運用を検討する。同時に、クラスごとに判別器を構築することなく、浅い層の構造を共有するなどモデルの軽量化を検討する。 ・Partial DAやopen-set DAでの提案法の有効性は、比較手法や対象データが限定的であり、さらに数値的な検証を進めることが求められている。同時に、クラス間の不均衡などに対する他手法と比較した優位性なども検証してゆく。 ・潜在空間として、分類などタスク固有の特徴量と、それ以外のドメイン固有の特徴量に分離して2つの潜在空間を獲得する方法を提案している。それを用いたデータ拡張や、ドメイン適応手法の提案に繋げたい。 ・ウエラブル赤外センサーを用いた視線動作の認識実験を進めているが、ユーザや環境の変化に対する脆弱性が課題となっている。データの前処理で吸収すべき特徴と、ドメイン適応が有効な特徴を見極めた上で、異なるユーザや環境での利用に繋げたい。 ・ドメイン適応や異常検知の適用事例として、医療画像における腫瘍検出を実施したい。肝臓腫瘍に対する公開データから開始し、国内外の研究グループとの共同研究に貢献したい。
|
Causes of Carryover |
過去2年間は、国内外での学会発表が全てオンラインとなり、それに伴う出張旅費の執行に至らず、また、国際学会の参加費も軽減された。同時に、共同研究者との打合せや議論も、双方の状況により対面が困難となりオンラインで実施したため、予定していた国内外の出張旅費の執行に至らなかった。それらが、次年度使用が生じた理由である。 次年度は、現地開催の国内会議、研究発表講演会が増えている。また、国際会議も少なくともハイブリッドでの開催が予定されているものが増えてきているため、状況が許す限り現地での発表を行い、国際的な成果の発信や対面での議論に繋げたい。そのため、使用計画としては、研究に必要な機器備品や消耗品などは既に整備されていることを踏まえ、主にこれまでに得られた成果の発信として、学会誌論文の掲載料や、学会発表に伴う国内・国外旅費、学会参加費などに必要な経費に使用する。
|