ミクロデータ利活用のための先端的AIを用いた支援技術の開発

研究課題

研究課題/領域番号	22K01427
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分07030:経済統計関連
研究機関	東京情報大学
研究代表者	佐野夏樹東京情報大学, 総合情報学部, 教授 (60568971)
研究分担者	南和宏統計数理研究所, データ科学研究系, 教授 (10579410)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	3,770千円 (直接経費: 2,900千円、間接経費: 870千円) 2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
キーワード	オートエンコーダ / 変分オートエンコーダ / GAN / LSTM / GRU / 統計的開示制御 / 合成データ生成 / オートエンコーダー / 敵対的生成ネットワーク / 有用性・リスク評価
研究開始時の研究の概要	個人情報保護法において, 特定の個人を識別することができない様に, 加工された情報は, 一定のルールの下で, 本人の同意を得ることなく, 特定された利用目的以外での利用や第三者への提供が可能となる. 個人の属性データや行動履歴を表すミクロデータを社会全体で利活用するためには, 個人の識別を不可能にする技術およびミクロデータを活用する技術を整備していく必要がある. 本研究課題では, 最新の人工知能技術を用いて, 本質的な情報を保存した合成データの生成法を提案し, その有用性やリスク評価を実施し, ミクロデータの利活用を推進する技術を開発する.
研究実績の概要	個人情報保護法において, 特定の個人を識別することができない様に, 加工された情報は, 一定のルールの下で, 本人の同意を得ることなく, 特定された利用目的以外での利用や第三者への提供が可能となる. 個人の属性データや行動履歴を表すミクロデータを社会全体で利活用するためには, 個人の識別を不可能にする技術およびミクロデータを活用する技術を整備していく必要がある. 本研究課題では, 最新のAI手法を用いて, 本質的な情報を保存した合成データの生成法を提案し, その有用性やリスク評価を実施し, ミクロデータの利活用を推進する技術を開発する. 本研究が想定するミクロデータの種類として, 以下の２つのデータ形式を考える. 一つ目は, アドホックな調査により収集したミクロデータであり, 個体x属性のクロスセクションデータである. 二つ目は, 継続的なデータ収集により得られた個体x属性x時間のパネルデータである. ある特定の個人に対して, 過去から現在に至る商品やサービスの購買履歴や継続的にデータが蓄積された企業の決算データもパネルデータとみなすことが出来る. 本年度は, それぞれの場合に対して, AIを用いたデータ生成法として, どのような技術が有望であるか調査を行なった. クロスセクションデータからデータを生成する方法としては, オートエンコーダや変分オートエンコーダおよび敵対的生成ネットワークの適用を検討した.　パネルデータからデータを生成する方法としては, リカレントニューラルネットワーク, LSTM（Long short-term memory）やGRU（Gated recurrent unit）の適用を検討し, それらの得失について議論を行なった.
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由オートエンコーダ, 変分オートエンコーダ, LSTM, GRU, GAN等の最新のAI手法を学習するために, 文献1の勉強会を他研究機関や企業の実務家等と月に一度のペースで実施している. RNN（リカレントニューラルネットワーク）は, 古典的なニューラルモデルの一種であるが, RNNは, 層間の重みに対応するパラメータを共有するため, 多層に展開した際に, 勾配消失や勾配爆発の問題が生じやすいことが明らかとなった. そこで, 近年注目されている時系列データのAIモデルであるLSTM（Long short-term memory）やGRU（Gated recurrent unit）を適用した場合, それらの問題を回避できる可能性があることが明らかとなった. またAI手法を実装する際に必須となる行列の並列計算を効率的に行うために, NVIDIA製GPU搭載上の汎用並列コンピューティングプラットフォームであるCUDAの構築に取り組んだ. 文献1. Deep Learning Architectures: A Mathematical Approach (2020), Ovidiu Calin, Springer
今後の研究の推進方策	調査した最新のA Iモデルにもとづき, 実際にデータを発生させる. 合成データ生成の対象としては, 国勢調査, 住宅・土地統計調査, 全国消費実態調査の匿名データを検討している. また生成したデータの特定リスクの評価および有用性（情報損失）評価を行う. リスク評価方法としては, 生成したデータに対して, 攻撃者がレコードリンケージによる原データの特定を試みた場合における真のレコードの的中率をベースに, 攻撃者の知識や攻撃方法によらない評価である差分プライバシーによるリスク評価が可能かどうか検討する.

報告書

(1件)

2022 実施状況報告書

研究成果

(2件)

すべて 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件) 図書 (1件)

[雑誌論文] Utility and Risk Evaluation of Synthetic Data by Orthogonal Transformation2022
- 著者名/発表者名
  Sano Natsuki
- 雑誌名
  
  The Review of Socionetwork Strategies
  
  巻: 16 号: 1 ページ: 71-79
- DOI
  10.1007/s12626-022-00107-x
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[図書] 実習R言語による多変量解析2023
- 著者名/発表者名
  内田治、佐野夏樹、佐野雅隆、下野僚子
- 総ページ数
  128
- 出版者
  サイエンス社
- ISBN
  4781915736
- 関連する報告書
  2022 実施状況報告書