• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Research-status Report

ミクロデータ利活用のための先端的AIを用いた支援技術の開発

Research Project

Project/Area Number 22K01427
Research InstitutionTokyo University of Information Sciences

Principal Investigator

佐野 夏樹  東京情報大学, 総合情報学部, 教授 (60568971)

Co-Investigator(Kenkyū-buntansha) 南 和宏  統計数理研究所, データ科学研究系, 教授 (10579410)
Project Period (FY) 2022-04-01 – 2025-03-31
Keywords公的開示制御 / 変分オートエンコーダ / 公的統計 / 合成データ / 匿名データ
Outline of Annual Research Achievements

本人の属性や行動特性を保存しながら, 特定の個人を識別することができない様にデータを加工する方法は, 統計的開示制御として, 公的統計分野では, 従前から知られているが, 原データの本質的な情報を保存しながら, 原データと異なるデータは, 合成データと呼ばれる. 本研究では, 変分オートエンコーダ(Variational Auto-Encoder)による合成データ生成法を提案した. オートエンコーダは機械学習における教師無し学習の一種であり, 入力データと教師データを同一にし, 入力データを入力層よりも次元の低い中間層に圧縮(エンコード)した後に, 出力層に復元(デコード)する. 圧縮された中間層の潜在変数は, データの特徴抽出に利用できるが, 原データの特徴を保存した新たなデータの生成には向いていない. 変分オートエンコーダは, 潜在変数に確率変数として構造を持たせることにより, 潜在変数を新たに発生させ, その後の出力層への復元過程を経て, 原データの特徴を保存した新たなデータを生成させるため, 生成データと原データの個体との間に1対1の対応関係があるわけではない. そのため, 原データを匿名加工する方法に比べて, 発生データの個体から原データの個体が識別されるリスクが小さいと考えられる.
実際に提案法を用いて, 統計センターが提供するSSDSE(教育用標準データセット)から合成データの生成を行った. また生成した合成データに対して, 新たに生成するデータの有用性(情報損失)の評価を行った.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

匿名データには, リスクと有用性の間にトレードオフの関係がある. すなわち, 匿名データを公開した際に第3者に個体を識別されるリスクと 匿名データと原データの間の情報損失の程度は, どちらかを重視すれば, どちらかが, 損なわれる性質がある . 本年度は, 生成したデータを有用性の観点から, 評価を行った. 有用性の評価の指標としては, 原データと生成データの値そのものの相違や原データと生成データの各変数に対して平均等の統計量を計算し, 統計量の相違として, 有用性(情報損失)の評価を行った.

Strategy for Future Research Activity

今後は, 生成したデータをリスクの観点から評価を行う. 生成データは, 潜在空間に発生させた乱数からデータ先生を行うため, 原データと生成データの間に対応関係が無いため, リスク評価が難しいが, 何らかのリスク評価指標の検討, 評価を実施する予定である. また最終年度の研究課題として, 敵対的生成ネットワーク(GAN)によるデータ生成も行い, データ生成の手法の中に個体の特定もしくは, センシティブな値の予測を試みる者の役割を導入したデータ生成手法を模索する予定である.

Causes of Carryover

研究の進捗が遅れたため, 予定していた国際会議で発表できなかったため. 今年度, 異なる国際会議で発表する予定である.

  • Research Products

    (2 results)

All 2024 2023

All Presentation (1 results) (of which Int'l Joint Research: 1 results) Book (1 results)

  • [Presentation] Evaluation of sales areas in supermarket by Markov chain model2024

    • Author(s)
      Natsuki Sano, Katsutoshi Yada, Syunsuke Okamoto, Tomomichi Suzuk
    • Organizer
      MISNC2024
    • Int'l Joint Research
  • [Book] 実習R言語による多変量解析: 基礎から機械学習まで2023

    • Author(s)
      内田 治,佐野 夏樹,佐野 雅隆,下野僚子
    • Total Pages
      128
    • Publisher
      サイエンス社
    • ISBN
      978-4781915739

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi