2019 Fiscal Year Research-status Report
Data augmentation and domain adaptation using the latent space of the deep generative model
Project/Area Number |
19K12164
|
Research Institution | Ritsumeikan University |
Principal Investigator |
西川 郁子 立命館大学, 情報理工学部, 教授 (90212117)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 機械学習 / 深層生成モデル / 潜在空間 / ドメイン適応 / 異常検知 |
Outline of Annual Research Achievements |
深層生成モデルの潜在変数空間の設計と利用を中心に研究を進めた。生成モデルとして主に、変分自己符号化器(variational auto-encoder :VAE)と敵対的生成ネットワーク(generative adversarial networks :GAN)を用いた。
・意味のある潜在変数の抽出:潜在空間における、いわゆる「もつれのない」表現を得ることで、パターン認識の性能をはじめ、データ生成や、ドメインシフト、ドメイン適応への有効性が期待できる。生成器による生成データを評価することで精緻な設計が可能なことからGANの枠組みを用いて、生成器、すなわち、潜在空間の学習方法を検討した。InfoGANやその拡張であるCausalInfoGANを元に、特に時系列データに対する状態遷移空間の抽出を行った。 ・正常データの生成モデルを用いたデータ異常検知:潜在空間に正常データ分布を獲得することで、教師なしで異常検知を実現できる。学習データの分布関数を、十分になめらかな低次元の分布関数として内部に獲得する能力の高さからVAEを用い、獲得した潜在空間を利用することで、個別データの形態異常と時系列データの時間発展異常の定量評価を行った。 ・ドメイン適応:潜在空間における分布に注目することで、ソースドメインで学習した認識器を、ターゲットドメインでも有効に転用することができる。その学習に用いる潜在空間における分布間距離として、対応するデータ対間の輸送距離の最小化を実現するWasserstein距離を用い、その有効性を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
上述の各項目について、現在までの進捗状況を示す。
・潜在空間の設計:特に、時系列データに対して、時間発展を記述する特徴を含む状態変数空間の抽出に取り組んだ。 人工データで詳細な検証を行った後、公開データベースから得られる3次元生物表現型の時系列データに適用し、抽出した状態空間上での遷移や、時間異常の検知を実現し、その生物学的意味も検討した。 ・データ異常の検知:正常データで獲得したVAEを用いて、再構築誤差からデータ形状の異常を、潜在空間上の遷移から時系列データの時間異常を、それぞれ定量的に評価する方法を構築した。特に、時間異常については、時間的に変化する正常データ分布を用いた正常スコアを定義し、定量的な異常検知を実現した。 ここでも、公開データベースから得られる3次元生物表現型の時系列データに適用し、抽出した状態空間上での遷移をもとに時間異常の検知を実現し、その生物学的意味も検討した。 ・ドメイン適応: 画像セグメンテーションとして、地図画像から道路セグメンテーションを行った。道路情報が既知のデジタル地図データや、手書きのイラスト地図などを対象にセグメンテーションを行い、ターゲットドメインにおけるセグメンテーション精度を既存手法と比較し、提案法の有効性を検証した。
|
Strategy for Future Research Activity |
現在までの課題をさらに進め、各種課題で検証する。
・潜在空間の分割:パターン認識タスクに固有の特徴からなる潜在空間と、データドメインに固有の特徴からなる潜在空間に分割することができれば、個々の潜在変数の「もつれを解く」ことができずとも、ドメインに依存しない認識器の構築が可能となる。そのためのアルゴリズムを考案しており、検証を進める。
・潜在空間における分布間距離:従来のJensen-Shannonダイバージェンスの他、上述の輸送距離最小化基準であるWasserstein距離、カーネル法によるmaximum mean discrepancyやその複数カーネル版など、複数の距離が考案されている。それらの数理的意味から、数理モデルおよび運用上の有効性を検討する。
|
Causes of Carryover |
初年度の計画として、当初、十分な計算機環境の整備を予定していたが、現有の研究室資源で目的が達成できたため、今年度の執行は控え、次年度における最新の機器設備の導入のために繰り越すことを判断した。さらに、初年度の成果を、翌年度に複数の国際会議で発表するため、その国外旅費や論文掲載料として重点的に運用する計画とした。しかし、既採択の国際会議論文のうち、5月と7月に開催予定の会議はオンライン開催が決定し、他の既投稿論文も同じく予断を許さない状況であり、再検討を行う。
|