2022 年度実績報告書

敵対的訓練を用いた制御可能な表現学習に関する研究

研究課題

研究課題/領域番号	18K18101
研究機関	東京大学
研究代表者	岩澤有祐東京大学, 大学院工学系研究科(工学部), 講師 (70808336)
研究期間 (年度)	2018-04-01 – 2023-03-31
キーワード	敵対的学習 / プライバシー保護 / ドメイン汎化 / 不変性
研究実績の概要	本研究の目的は、深層NNの表現が特定の情報を持たないように制御する要素技術の開発である。これにより、未知ユーザの行動を高精度に認識したり、深層NNの判断基準が特定の因子によらないことを保証（プライバシー保護、公平性配慮）できる。研究期間を通じて、下記のような技術的な成果を得た。(1) 安定な学習アルゴリズムの開発。既存手法であるAdversarial Feature Learning (AFL)は有望なアプローチであるものの、実際的な挙動は不安定であり、利用者の細かいチューニングなしには表現の制御は困難である。AFLの不安定性について解析を行い、解決する方法を提案した。本成果はIJCAI2020に採択された。 (2) ドメイン汎化性能を高めることを念頭に置いた不変性のより適切な基準についての提案。ある予測したい因子については情報を既存しない範囲で最大の不変性を達成する十分不変性という基準を提案し、また十分不変性を達成する手法を提案した。本成果はECML2019に採択された。 (3) 教師なしでの不変表現学習。既存の不変表現学習は「どの情報を表現から消すか」を明示する必要があり、消したい情報についての教師データが必要である。本研究では、ユーザが消したい情報についての詳細を与えることなく、データからそのような情報を削除するグラフィカルモデルに基づく枠組みとその実現手法を提案した。本成果はECML2021に採択された。 (4) モデル探索。既存研究ではモデルを固定している、例えばSelf Attention（SA）の言語領域の成功に代表されるように、深層学習の成功はデータに適したモデル構造の発見に大きな要因がある。本研究では「表現を制御する」という観点から望ましいモデル発見に向けて、畳み込みネット以外のモデルを使った場合の影響を調査した。本成果はNeurIPS2021に採択された。