2023 Fiscal Year Research-status Report
ミクロデータ利活用のための先端的AIを用いた支援技術の開発
Project/Area Number |
22K01427
|
Research Institution | Tokyo University of Information Sciences |
Principal Investigator |
佐野 夏樹 東京情報大学, 総合情報学部, 教授 (60568971)
|
Co-Investigator(Kenkyū-buntansha) |
南 和宏 統計数理研究所, データ科学研究系, 教授 (10579410)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 公的開示制御 / 変分オートエンコーダ / 公的統計 / 合成データ / 匿名データ |
Outline of Annual Research Achievements |
本人の属性や行動特性を保存しながら, 特定の個人を識別することができない様にデータを加工する方法は, 統計的開示制御として, 公的統計分野では, 従前から知られているが, 原データの本質的な情報を保存しながら, 原データと異なるデータは, 合成データと呼ばれる. 本研究では, 変分オートエンコーダ(Variational Auto-Encoder)による合成データ生成法を提案した. オートエンコーダは機械学習における教師無し学習の一種であり, 入力データと教師データを同一にし, 入力データを入力層よりも次元の低い中間層に圧縮(エンコード)した後に, 出力層に復元(デコード)する. 圧縮された中間層の潜在変数は, データの特徴抽出に利用できるが, 原データの特徴を保存した新たなデータの生成には向いていない. 変分オートエンコーダは, 潜在変数に確率変数として構造を持たせることにより, 潜在変数を新たに発生させ, その後の出力層への復元過程を経て, 原データの特徴を保存した新たなデータを生成させるため, 生成データと原データの個体との間に1対1の対応関係があるわけではない. そのため, 原データを匿名加工する方法に比べて, 発生データの個体から原データの個体が識別されるリスクが小さいと考えられる. 実際に提案法を用いて, 統計センターが提供するSSDSE(教育用標準データセット)から合成データの生成を行った. また生成した合成データに対して, 新たに生成するデータの有用性(情報損失)の評価を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
匿名データには, リスクと有用性の間にトレードオフの関係がある. すなわち, 匿名データを公開した際に第3者に個体を識別されるリスクと 匿名データと原データの間の情報損失の程度は, どちらかを重視すれば, どちらかが, 損なわれる性質がある . 本年度は, 生成したデータを有用性の観点から, 評価を行った. 有用性の評価の指標としては, 原データと生成データの値そのものの相違や原データと生成データの各変数に対して平均等の統計量を計算し, 統計量の相違として, 有用性(情報損失)の評価を行った.
|
Strategy for Future Research Activity |
今後は, 生成したデータをリスクの観点から評価を行う. 生成データは, 潜在空間に発生させた乱数からデータ先生を行うため, 原データと生成データの間に対応関係が無いため, リスク評価が難しいが, 何らかのリスク評価指標の検討, 評価を実施する予定である. また最終年度の研究課題として, 敵対的生成ネットワーク(GAN)によるデータ生成も行い, データ生成の手法の中に個体の特定もしくは, センシティブな値の予測を試みる者の役割を導入したデータ生成手法を模索する予定である.
|
Causes of Carryover |
研究の進捗が遅れたため, 予定していた国際会議で発表できなかったため. 今年度, 異なる国際会議で発表する予定である.
|