位置情報の社会科学への応用を考える際には、位置情報に紐づいた各個人情報とセットで提供することが重要であるが、個人特定リスクが内在する。個人情報の中でも、とりわけ位置情報は特定化リスクが高い。簡便な方法としては、空間的に粗いメッシュを作成することで位置情報を粗くするが、どの程度メッシュを粗くすれば個人を特定できなくなるかは付随する個人情報に依存する。データ合成手法は、各変数の依存構造を保持したまま、対象となるデータ自体をシミュレートすることで、データの分布構造を保持した上での擬似データにより元データを代替するものである。これまでの研究では、点過程の枠組みで位置情報を各個人情報に回帰させることで、各個人情報との相互関係を保持したまま、位置情報をシミュレートする位置情報に対するデータ合成手法を提案・検証してきた。 今年度に関しては前年度に引き続き、位置情報だけでなく、位置情報に付随する個人情報のデータ合成手法を統合する方向を考えてきた。2値変数、カテゴリー変数、連続変数などさまざまなタイプの変数が混在しており(混合変数と呼ぶ)、元データにおけるこれら変数間の分布構造を保持したまま、そこからシミュレーションすることが重要となっている。関連研究として、近年Annals of Applied Statisticsにコピュラ手法を用いた混合変数のデータ統合手法が提案されているが、本研究では、より柔軟性の高いアプローチとしてガウス過程を用いたデータ合成手法の開発を行った。
|