2019 Fiscal Year Research-status Report
GPSデータの個人特定化リスクに対する統計手法の開発
Project/Area Number |
19K23243
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
城田 慎一郎 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (90845918)
|
Project Period (FY) |
2019-08-30 – 2021-03-31
|
Keywords | GPSデータ / 空間統計 / 匿名化 |
Outline of Annual Research Achievements |
位置情報の社会科学への応用を考える際には、位置情報に紐づいた各個人情報をセットで提供することが重要であるが、個人特定リスクが内在する。とりわけ、位置情報は個人に関する情報を多く含むため、その特定リスクが高い。本研究では、空間点過程を用いて、位置情報と個人情報間の依存構造を保持したまま、位置情報をシミュレーションにより生成する。このような手法は「データ合成手法」と呼ばれるもので、モデルを用いてある特定のデータ(ここでは位置情報)に関しては、完全にシミュレーションによって生成するので、特定化のリスクが小さいという利点がある。一方で、データ合成は位置情報と個人情報間の関係をモデリングする必要があるが、依存構造がモデルにより決定されてしまうという課題がある。また、高次元の共変量や位置情報を持つ場合の空間点過程の高速計算やシミュレーションといった技術的な問題もある。本研究は、位置情報の中でも、とりわけGPSデータなどの連続した位置情報に対して、データ合成手法の提案を目指すものである。GPSデータは軌跡データとなるため、そのシミュレーション手法に関する先行研究は少ない。さらに点過程の枠組みでの、GPSデータの取り扱いに関しての先行研究は皆無といえる。また、位置情報に関しては付随した情報(例えばアパートの何階かなど)が得られることが多く、これらの付随情報をどういった形でモデルに組み込むかという点もまだ未解決の課題である。 これまで、単純な位置情報と関連する個人情報を用いて、空間点過程をベースとする既存のデータ合成手法の有効性をデータを用いて検証した。また、高次元の共変量・位置情報に対する計算時間などの問題が発生することは当初から予想されていたので、なんらかの近似手法を考案する必要があるのだが、これについてはいくつかの候補の選定が終了し、検証を始めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
おおむね順調に進展している。まず既存のデータ合成手法に関して調査し、その課題に関しては、前述した「研究実績の概要」に記した。第一段階としては、既存の研究で対象とされてきた住所などの単純な位置情報とそれに関連した所得などの個人情報が揃ったデータセットを用意し、既存の手法である空間点過程のモデリングによる有効性を確認した。一方で、既存の点過程によるモデリングは計算時間がかかるなどの問題点もあり、その点についてはいくつかの近似手法を考案している段階である。妥当な近似手法に関しては、近いうちに選定が終わる予定である。この点に関しては、海外の研究者より関連する研究がarXivにアップされているので、合わせて検討する予定である。 第二段階として、本研究以前に行った研究である「起点・終点点パターンの統計モデル」の本研究への適用を試みている。これは、出発点と終着点が位置情報として与えられたときの統計モデルで、例として車の盗難場所と発見場所や自宅と通勤先などのデータがある。このタイプのデータは、単純な位置情報とGPSデータの中間に位置するデータ型であるといえる。このタイプのデータへ、手法の有効性が確認できれば、その拡張としてGPSデータへの拡張が期待できる。
|
Strategy for Future Research Activity |
手法の開発に関しては、順調に進んでいるので、このまま段階的に検証を重ねていきたい。今後は、高次元空間でのシミュレーションなど、計算負荷の重い数値計算が発生することが予想されるため、計算リソースの確保などは迅速に進めていきたい。 また、当初プログラムコードの実装として、統計言語Rのパッケージの作成を予定していた。これには共同研究者との密なコミュニケーションが必要であるが、新型コロナウィルス流行の影響や共同研究者の所属先変更などにより遅延が発生している。今後の状況を鑑みて臨機応変にプロジェクトを進めていく予定であるが、パッケージ作成に関しては、本研究では見送ることも考慮にいれる。
|