研究課題/領域番号 |
19K23243
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
0107:経済学、経営学およびその関連分野
|
研究機関 | 一橋大学 (2022) 明治大学 (2020-2021) 国立研究開発法人理化学研究所 (2019) |
研究代表者 |
城田 慎一郎 一橋大学, ソーシャル・データサイエンス教育研究推進センター, 准教授 (90845918)
|
研究期間 (年度) |
2019-08-30 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | データ合成 / ガウス過程 / 空間統計 / 空間点過程 / GPSデータ / 匿名化 / 点過程 |
研究開始時の研究の概要 |
近年、経済・経営・医療へのビッグデータ応用が注目を集めている。中でも、GPSデータは個人の住所だけでなく、日中の行動パターンに関する様々な情報を含んでいる。たとえば、マーケティングなどの分野においては、GPSの位置情報を用いて、スーパーマーケットにおける競合他社の購買行動の予測などを行っている。一方で、その情報量から、GPSデータをそのまま開示することは、本人特定化のリスクの観点から非常に危険であり、何らかの処理が必要となる。本研究では、GPSデータに付随する各種大規模な個票データの公開リスクに関する統計的な新手法を提案することを目的としている。
|
研究実績の概要 |
位置情報の社会科学への応用を考える際には、位置情報に紐づいた各個人情報とセットで提供することが重要であるが、個人特定リスクが内在する。個人情報の中でも、とりわけ位置情報は特定化リスクが高い。簡便な方法としては、空間的に粗いメッシュを作成することで位置情報を粗くするが、どの程度メッシュを粗くすれば個人を特定できなくなるかは付随する個人情報に依存する。データ合成手法は、各変数の依存構造を保持したまま、対象となるデータ自体をシミュレー トすることで、データの分布構造を保持した上での擬似データにより元データを代替するものである。これまでの研究では、点過程の枠組みで位置情報を各個人情報に回帰させることで、各個人情報との相互関係を保持したまま、位置情報をシミュレートする位置情報に対するデータ合成手法を提案・検証してきた。 2022年度に関しては2021年度に引き続き、位置情報だけでなく、位置情報に付随する個人情報のデータ合成手法を統合する方向を考えてきた。これにより、位置情報だけでなくデー タ全体をシミュレートすることができ、より包括的なデータ合成手法となる。各変数には、2値変数、カテゴリー変数、連続変数などさまざまなタイプの変数が 混在しており(混合変数と呼ぶ)、元データにおけるこれら変数間の分布構造を保持したまま、そこからシミュレーションすることが重要となっている。関連研究 として、近年Annals of Applied Statisticsにコピュラ手法を用いた混合変数のデータ統合手法が提案されているが、本研究では、ガウス過程を用いたデータ合 成手法の開発を目指しており、現在手法の開発を進めている段階である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
モデルの検証タスクはまだ検証しきれていないものの、概ね順調に推移している。 データに関しては、関連研究で使用されたもの以外で使用できるものがないか現在検討中である。
|
今後の研究の推進方策 |
データの取得と加工を進めていく。 関連する書籍などの購入は終えているので、随時論文化に向けて進めていく。
|