研究実績の概要 |
本人の属性や行動特性を保存しながら, 特定の個人を識別することができない様にデータを加工する方法は, 統計的開示制御として, 公的統計分野では, 従前から知られているが, 原データの本質的な情報を保存しながら, 原データと異なるデータは, 合成データと呼ばれる. 本研究では, 変分オートエンコーダ(Variational Auto-Encoder)による合成データ生成法を提案した. オートエンコーダは機械学習における教師無し学習の一種であり, 入力データと教師データを同一にし, 入力データを入力層よりも次元の低い中間層に圧縮(エンコード)した後に, 出力層に復元(デコード)する. 圧縮された中間層の潜在変数は, データの特徴抽出に利用できるが, 原データの特徴を保存した新たなデータの生成には向いていない. 変分オートエンコーダは, 潜在変数に確率変数として構造を持たせることにより, 潜在変数を新たに発生させ, その後の出力層への復元過程を経て, 原データの特徴を保存した新たなデータを生成させるため, 生成データと原データの個体との間に1対1の対応関係があるわけではない. そのため, 原データを匿名加工する方法に比べて, 発生データの個体から原データの個体が識別されるリスクが小さいと考えられる. 実際に提案法を用いて, 統計センターが提供するSSDSE(教育用標準データセット)から合成データの生成を行った. また生成した合成データに対して, 新たに生成するデータの有用性(情報損失)の評価を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
匿名データには, リスクと有用性の間にトレードオフの関係がある. すなわち, 匿名データを公開した際に第3者に個体を識別されるリスクと 匿名データと原データの間の情報損失の程度は, どちらかを重視すれば, どちらかが, 損なわれる性質がある . 本年度は, 生成したデータを有用性の観点から, 評価を行った. 有用性の評価の指標としては, 原データと生成データの値そのものの相違や原データと生成データの各変数に対して平均等の統計量を計算し, 統計量の相違として, 有用性(情報損失)の評価を行った.
|
今後の研究の推進方策 |
今後は, 生成したデータをリスクの観点から評価を行う. 生成データは, 潜在空間に発生させた乱数からデータ先生を行うため, 原データと生成データの間に対応関係が無いため, リスク評価が難しいが, 何らかのリスク評価指標の検討, 評価を実施する予定である. また最終年度の研究課題として, 敵対的生成ネットワーク(GAN)によるデータ生成も行い, データ生成の手法の中に個体の特定もしくは, センシティブな値の予測を試みる者の役割を導入したデータ生成手法を模索する予定である.
|