研究概要 |
前年度に完成させたデータセットについて、本年度は個票開示リスク及び社会科学の実証研究における有用性を評価する予定であった。評価基準を妥当なものにするため、匿名化されたデータの公開にまつわる制度的問題について広範囲な文献サーベイを行い、併せて日本における匿名化実務の課題について考察した。このサーベイによると、先進的事例ではデータに「嘘」を混入させる事でリスクの低減と有用性を両立させようとしている。そしてバイアスの観点から、「嘘」は確率的に生成するのが妥当である。このような匿名化手法は模造と呼ばれ、特に確率モデルからの標本を公開する事が研究の最先端である。そして日本のミクロデータ提供制度の課題を検討する際は、これらの事情を踏まえなくてはならない。現行制度の大きな課題としては、提供される匿名データの種類の増加、利用目的制限の緩和、と二点挙げられる。これらの解決には現在使われている匿名化よりも強力な手法が必要であり、それには模造が現実解と思われる。このような内容を、査読付き論文(星野,2010)にまとめた。以上の立場から前年度に完成させたデータセットを評価すると、模造手法が使われていないので、有用性と安全性の両立に疑問が残ると言わざるをえない。従って、本データセット及び副産物は現時点では公開せず、引き続き分析を続ける事とした。 理論研究については、極限条件付き複合ポアソン(LCCP)分布族の挙動をベル多項式で表現した。自然数の確率分割族の中で、LCCP分布族は小数法則で特徴付け可能であり、疎な分割表の挙動を説明する重要な族である。そしてLCCP分布族の構成を条件付けと極限操作の組み合わせとみなせば、既存の族との関係が明確になる。このような内容は査読付き論文(Hoshino,To appear)にまとめた。
|