Anonymization methods in enterprise surveys using the EDINET
Project/Area Number |
16K00426
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Research Field |
Web informatics, Service informatics
|
Research Institution | Hitotsubashi University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
相良 直哉 一橋大学, 経済研究所, 助教 (70433852)
|
Project Period (FY) |
2016-10-21 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2018: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2017: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2016: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
|
Keywords | 統計的開示抑制 / トップ・ボトムコーディング / 持ち出し審査 / 基本統計量 / 合成データ / オープンデータ / オンサイト施設 / トップコーディング / ボトムコーディング / 秘匿ルール / オンサイト施設の試行運用 / 組合せパターン / Synthtic Microdata / 匿名化手法 / 組合せパターンのデータベース / 企業データ / 匿名化手法の確立 / 匿名化 / 企業情報 / 利用者指向 / 秘匿ルールの検証 |
Outline of Final Research Achievements |
In this study, we built a database that registered statistics and frequency patterns for identify companies. Therefore, it became possible to search by statistics for identifying the original data, and to find a threshold when the value of the original data can be identified and when it cannot be identified. Furthermore, using micro data of Survey of Research and Development, statistics such as maximum value and minimum value, frequency by each variable were tabulated. In addition, we analyzed top and bottom coding boundary values to conceal maximum and minimum values. We created a regression model of how to determine each boundary value. These examinations have made it possible to clarify useful anonymization techniques for researchers.
|
Academic Significance and Societal Importance of the Research Achievements |
学術的意義は、二次利用推進を図るため、企業調査における匿名化技法の研究であり、攪乱手法による有用性を損なわない秘匿性向上の検証である。特に、基本統計量のデータベース作成とその機能の活用により、トップ・ボトムコーディング、リコーディング(区分統合)、センシティブルールの閾値の設定など、より多くのシミュレーションに基づいた匿名化を可能とすることである。 社会的意義は、①企業情報の利用を要望している研究者等の有用性が向上する。②数値パターンに基づいた基本統計量のデータベースを利用し、匿名化に有用な手法を活用することにより、データの匿名化や作成した合成データが研究者等の利便性を格段に向上させる、である。
|
Report
(4 results)
Research Products
(19 results)