• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

ミクロデータ利活用のための先端的AIを用いた支援技術の開発

Research Project

Project/Area Number 22K01427
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 07030:Economic statistics-related
Research InstitutionTokyo University of Information Sciences

Principal Investigator

佐野 夏樹  東京情報大学, 総合情報学部, 教授 (60568971)

Co-Investigator(Kenkyū-buntansha) 南 和宏  統計数理研究所, データ科学研究系, 教授 (10579410)
Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords公的開示制御 / 変分オートエンコーダ / 公的統計 / 合成データ / 匿名データ / オートエンコーダ / GAN / LSTM / GRU / 統計的開示制御 / 合成データ生成 / オートエンコーダー / 敵対的生成ネットワーク / 有用性・リスク評価
Outline of Research at the Start

個人情報保護法において, 特定の個人を識別することができない様に, 加工された情報は, 一定のルールの下で, 本人の同意を得ることなく, 特定された利用目的以外での利用や第三者への提供が可能となる. 個人の属性データや行動履歴を表すミクロデータを社会全体で利活用するためには, 個人の識別を不可能にする技術およびミクロデータを活用する技術を整備していく必要がある. 本研究課題では, 最新の人工知能技術を用いて, 本質的な情報を保存した合成データの生成法を提案し, その有用性やリスク評価を実施し, ミクロデータの利活用を推進する技術を開発する.

Outline of Annual Research Achievements

本人の属性や行動特性を保存しながら, 特定の個人を識別することができない様にデータを加工する方法は, 統計的開示制御として, 公的統計分野では, 従前から知られているが, 原データの本質的な情報を保存しながら, 原データと異なるデータは, 合成データと呼ばれる. 本研究では, 変分オートエンコーダ(Variational Auto-Encoder)による合成データ生成法を提案した. オートエンコーダは機械学習における教師無し学習の一種であり, 入力データと教師データを同一にし, 入力データを入力層よりも次元の低い中間層に圧縮(エンコード)した後に, 出力層に復元(デコード)する. 圧縮された中間層の潜在変数は, データの特徴抽出に利用できるが, 原データの特徴を保存した新たなデータの生成には向いていない. 変分オートエンコーダは, 潜在変数に確率変数として構造を持たせることにより, 潜在変数を新たに発生させ, その後の出力層への復元過程を経て, 原データの特徴を保存した新たなデータを生成させるため, 生成データと原データの個体との間に1対1の対応関係があるわけではない. そのため, 原データを匿名加工する方法に比べて, 発生データの個体から原データの個体が識別されるリスクが小さいと考えられる.
実際に提案法を用いて, 統計センターが提供するSSDSE(教育用標準データセット)から合成データの生成を行った. また生成した合成データに対して, 新たに生成するデータの有用性(情報損失)の評価を行った.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

匿名データには, リスクと有用性の間にトレードオフの関係がある. すなわち, 匿名データを公開した際に第3者に個体を識別されるリスクと 匿名データと原データの間の情報損失の程度は, どちらかを重視すれば, どちらかが, 損なわれる性質がある . 本年度は, 生成したデータを有用性の観点から, 評価を行った. 有用性の評価の指標としては, 原データと生成データの値そのものの相違や原データと生成データの各変数に対して平均等の統計量を計算し, 統計量の相違として, 有用性(情報損失)の評価を行った.

Strategy for Future Research Activity

今後は, 生成したデータをリスクの観点から評価を行う. 生成データは, 潜在空間に発生させた乱数からデータ先生を行うため, 原データと生成データの間に対応関係が無いため, リスク評価が難しいが, 何らかのリスク評価指標の検討, 評価を実施する予定である. また最終年度の研究課題として, 敵対的生成ネットワーク(GAN)によるデータ生成も行い, データ生成の手法の中に個体の特定もしくは, センシティブな値の予測を試みる者の役割を導入したデータ生成手法を模索する予定である.

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (4 results)

All 2024 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results) Book (2 results)

  • [Journal Article] Utility and Risk Evaluation of Synthetic Data by Orthogonal Transformation2022

    • Author(s)
      Sano Natsuki
    • Journal Title

      The Review of Socionetwork Strategies

      Volume: 16 Issue: 1 Pages: 71-79

    • DOI

      10.1007/s12626-022-00107-x

    • Related Report
      2022 Research-status Report
    • Peer Reviewed
  • [Presentation] Evaluation of sales areas in supermarket by Markov chain model2024

    • Author(s)
      Natsuki Sano, Katsutoshi Yada, Syunsuke Okamoto, Tomomichi Suzuk
    • Organizer
      MISNC2024
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Book] 実習R言語による多変量解析: 基礎から機械学習まで2023

    • Author(s)
      内田 治,佐野 夏樹,佐野 雅隆,下野僚子
    • Total Pages
      128
    • Publisher
      サイエンス社
    • ISBN
      9784781915739
    • Related Report
      2023 Research-status Report
  • [Book] 実習R言語による多変量解析2023

    • Author(s)
      内田 治、佐野 夏樹、佐野 雅隆、下野 僚子
    • Total Pages
      128
    • Publisher
      サイエンス社
    • ISBN
      4781915736
    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi