研究課題/領域番号 |
22K01427
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分07030:経済統計関連
|
研究機関 | 東京情報大学 |
研究代表者 |
佐野 夏樹 東京情報大学, 総合情報学部, 教授 (60568971)
|
研究分担者 |
南 和宏 統計数理研究所, データ科学研究系, 教授 (10579410)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | オートエンコーダ / 変分オートエンコーダ / GAN / LSTM / GRU / 統計的開示制御 / 合成データ生成 / オートエンコーダー / 敵対的生成ネットワーク / 有用性・リスク評価 |
研究開始時の研究の概要 |
個人情報保護法において, 特定の個人を識別することができない様に, 加工された情報は, 一定のルールの下で, 本人の同意を得ることなく, 特定された利用目的以外での利用や第三者への提供が可能となる. 個人の属性データや行動履歴を表すミクロデータを社会全体で利活用するためには, 個人の識別を不可能にする技術およびミクロデータを活用する技術を整備していく必要がある. 本研究課題では, 最新の人工知能技術を用いて, 本質的な情報を保存した合成データの生成法を提案し, その有用性やリスク評価を実施し, ミクロデータの利活用を推進する技術を開発する.
|
研究実績の概要 |
個人情報保護法において, 特定の個人を識別することができない様に, 加工された情報は, 一定のルールの下で, 本人の同意を得ることなく, 特定された利用目的以外での利用や第三者への提供が可能となる. 個人の属性データや行動履歴を表すミクロデータを社会全体で利活用するためには, 個人の識別を不可能にする技術およびミクロデータを活用する技術を整備していく必要がある. 本研究課題では, 最新のAI手法を用いて, 本質的な情報を保存した 合成データの生成法を提案し, その有用性やリスク評価を実施し, ミクロデータの利活用を推進する技術を開発する. 本研究が想定するミクロデータの種類として, 以下の2つのデータ形式を考える. 一つ目は, アドホックな調査により収集したミクロデータであり, 個体x属性のクロスセクションデータである. 二つ目は, 継続的なデータ収集により得られた個体x属性x時間のパネルデータである. ある特定の個人に対して, 過去から現在に至る商品やサービスの購買履歴や継続的にデータが蓄積された企業の決算データもパネルデータとみなすことが出来る. 本年度は, それぞれの場合に対して, AIを用いたデータ生成法として, どのような技術が有望であるか調査を行なった. クロスセクションデータからデータを生成する方法としては, オートエンコーダや変分オートエンコーダおよび敵対的生成ネットワークの適用を検討した. パネルデータからデータを生成する方法としては, リカレントニューラルネットワーク, LSTM(Long short-term memory)やGRU(Gated recurrent unit)の適用を検討し, それらの得失について議論を行なった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
オートエンコーダ, 変分オートエンコーダ, LSTM, GRU, GAN等の最新のAI手法を学習するために, 文献1の勉強会を他研究機関や企業の実務家等と月に一度のペースで実施している. RNN(リカレントニューラルネットワーク)は, 古典的なニューラルモデルの一種であるが, RNNは, 層間の重みに対応するパラメータを共有するため, 多層に展開した際に, 勾配消失や勾配爆発の問題が生じやすいことが明らかとなった. そこで, 近年注目されている時系列データのAIモデルであるLSTM(Long short-term memory)やGRU(Gated recurrent unit)を適用した場合, それらの問題を回避できる可能性があることが明らかとなった. またAI手法を実装する際に必須となる行列の並列計算を効率的に行うために, NVIDIA製GPU搭載上の汎用並列コンピューティングプラットフォームであるCUDAの構築に取り組んだ. 文献1. Deep Learning Architectures: A Mathematical Approach (2020), Ovidiu Calin, Springer
|
今後の研究の推進方策 |
調査した最新のA Iモデルにもとづき, 実際にデータを発生させる. 合成データ生成の対象としては, 国勢調査, 住宅・土地統計調査, 全国消費実態調査の匿名データを検討している. また生成したデータの特定リスクの評価および有用性(情報損失)評価を行う. リスク評価方法としては, 生成したデータに対して, 攻撃者がレコードリンケージによる原データの特定を試みた場合における真のレコードの的中率をベースに, 攻撃者の知識や攻撃方法によらない評価である差分プライバシーによるリスク評価が可能かどうか検討する.
|