2021 Fiscal Year Research-status Report
GPSデータの個人特定化リスクに対する統計手法の開発
Project/Area Number |
19K23243
|
Research Institution | Meiji University |
Principal Investigator |
城田 慎一郎 明治大学, 商学部, 専任講師 (90845918)
|
Project Period (FY) |
2019-08-30 – 2023-03-31
|
Keywords | データ合成 / 空間点過程 |
Outline of Annual Research Achievements |
位置情報の社会科学への応用を考える際には、位置情報に紐づいた各個人情報とセットで提供することが重要であるが、個人特定リスクが内在する。個人情報の中でも、とりわけ位置情報は特定化リスクが高い。簡便な方法としては、空間的に粗いメッシュを作成することで位置情報を粗くするが、どの程度メッシュを粗くすれば個人を特定できなくなるかは付随する個人情報に依存する。データ合成手法は、各変数の依存構造を保持したまま、対象となるデータ自体をシミュレートすることで、データの分布構造を保持した上での擬似データにより元データを代替するものである。これまでの研究では、点過程の枠組みで位置情報を各個人情報に回帰させることで、各個人情報との相互関係を保持したまま、位置情報をシミュレートする位置情報に対するデータ合成手法を提案・検証してきた。 今年度に関しては、位置情報だけでなく、位置情報に付随する個人情報のデータ合成手法を統合する方向を考えてきた。これにより、位置情報だけでなくデータ全体をシミュレートすることができ、より包括的なデータ合成手法となる。各変数には、2値変数、カテゴリー変数、連続変数などさまざまなタイプの変数が混在しており(混合変数と呼ぶ)、元データにおけるこれら変数間の分布構造を保持したまま、そこからシミュレーションすることが重要となっている。関連研究として、近年Annals of Applied Statisticsにコピュラ手法を用いた混合変数のデータ統合手法が提案されているが、本研究では、ガウス過程を用いたデータ合成手法の開発を目指しており、現在手法の開発を進めている段階である。実データへの実装については、上記論文の著者らが使用しているデータを使用できないか現在打診中であり、許可が得られれば同データを用いて上記2点について検証し、論文の投稿を目指していく。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度の報告では、新型コロナウィルスの流行に伴う諸事情により研究の進捗が鈍化したが、今年に関しては状況が改善し、進展があった。データに関しては、関連研究の研究者にデータの公開を打診中である。取得できるようであれば、関連研究との比較などを行うことも可能となる。当初予定していた軌跡データに関しては、データが特殊であり入手が困難であるため、より重要度と汎用性が高い位置情報と付随情報の依存構造の取り扱いを優先度の高いテーマとして考えていく。
|
Strategy for Future Research Activity |
2022年4月より、前所属先から現所属先への異動があった。昨年度は必要な計算機を購入するに至らなかったので、今年度は計算機の購入を考えている。また、データベースの加工や簡単なシミュレーションにおける調査業務として、研究助手を雇う予定である。データの取得に関しては、関連研究の研究者のレスポンスを待ちつつ、他に使用可能なものを検討していく。取得できないようであれば、シミュレーション結果をベースに結果をまとめていく。コロナの流行状況次第ではあるが、海外でのコンファレンスも徐々に開催されつつあるので、感染状況を考慮して参加できるようにしたい。
|
Causes of Carryover |
所属が変更となることが早い段階から確定していたので、次年度の所属先で必要である計算機を購入するようスケジュールを変更した。それまでは、現在所持している計算機で比較的簡単な計算を行い、よりデータ量の重い計算については、次年度計算機を購入し実装する予定である。
|