Project/Area Number |
22K01427
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 07030:Economic statistics-related
|
Research Institution | Tokyo University of Information Sciences |
Principal Investigator |
佐野 夏樹 東京情報大学, 総合情報学部, 教授 (60568971)
|
Co-Investigator(Kenkyū-buntansha) |
南 和宏 統計数理研究所, データ科学研究系, 教授 (10579410)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 公的開示制御 / 変分オートエンコーダ / 公的統計 / 合成データ / 匿名データ / オートエンコーダ / GAN / LSTM / GRU / 統計的開示制御 / 合成データ生成 / オートエンコーダー / 敵対的生成ネットワーク / 有用性・リスク評価 |
Outline of Research at the Start |
個人情報保護法において, 特定の個人を識別することができない様に, 加工された情報は, 一定のルールの下で, 本人の同意を得ることなく, 特定された利用目的以外での利用や第三者への提供が可能となる. 個人の属性データや行動履歴を表すミクロデータを社会全体で利活用するためには, 個人の識別を不可能にする技術およびミクロデータを活用する技術を整備していく必要がある. 本研究課題では, 最新の人工知能技術を用いて, 本質的な情報を保存した合成データの生成法を提案し, その有用性やリスク評価を実施し, ミクロデータの利活用を推進する技術を開発する.
|
Outline of Annual Research Achievements |
本人の属性や行動特性を保存しながら, 特定の個人を識別することができない様にデータを加工する方法は, 統計的開示制御として, 公的統計分野では, 従前から知られているが, 原データの本質的な情報を保存しながら, 原データと異なるデータは, 合成データと呼ばれる. 本研究では, 変分オートエンコーダ(Variational Auto-Encoder)による合成データ生成法を提案した. オートエンコーダは機械学習における教師無し学習の一種であり, 入力データと教師データを同一にし, 入力データを入力層よりも次元の低い中間層に圧縮(エンコード)した後に, 出力層に復元(デコード)する. 圧縮された中間層の潜在変数は, データの特徴抽出に利用できるが, 原データの特徴を保存した新たなデータの生成には向いていない. 変分オートエンコーダは, 潜在変数に確率変数として構造を持たせることにより, 潜在変数を新たに発生させ, その後の出力層への復元過程を経て, 原データの特徴を保存した新たなデータを生成させるため, 生成データと原データの個体との間に1対1の対応関係があるわけではない. そのため, 原データを匿名加工する方法に比べて, 発生データの個体から原データの個体が識別されるリスクが小さいと考えられる. 実際に提案法を用いて, 統計センターが提供するSSDSE(教育用標準データセット)から合成データの生成を行った. また生成した合成データに対して, 新たに生成するデータの有用性(情報損失)の評価を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
匿名データには, リスクと有用性の間にトレードオフの関係がある. すなわち, 匿名データを公開した際に第3者に個体を識別されるリスクと 匿名データと原データの間の情報損失の程度は, どちらかを重視すれば, どちらかが, 損なわれる性質がある . 本年度は, 生成したデータを有用性の観点から, 評価を行った. 有用性の評価の指標としては, 原データと生成データの値そのものの相違や原データと生成データの各変数に対して平均等の統計量を計算し, 統計量の相違として, 有用性(情報損失)の評価を行った.
|
Strategy for Future Research Activity |
今後は, 生成したデータをリスクの観点から評価を行う. 生成データは, 潜在空間に発生させた乱数からデータ先生を行うため, 原データと生成データの間に対応関係が無いため, リスク評価が難しいが, 何らかのリスク評価指標の検討, 評価を実施する予定である. また最終年度の研究課題として, 敵対的生成ネットワーク(GAN)によるデータ生成も行い, データ生成の手法の中に個体の特定もしくは, センシティブな値の予測を試みる者の役割を導入したデータ生成手法を模索する予定である.
|