研究課題/領域番号 |
24650064
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
佐藤 一誠 東京大学, 情報基盤センター, 助教 (90610155)
|
研究期間 (年度) |
2012-04-01 – 2014-03-31
|
キーワード | プライバシー保護 / データマイニング / 機械学習 / 差分プライバシー / データベース / 匿名化 / 相関 / 雑音 |
研究概要 |
プライバシー保護データマイニングはビッグデータの処理と活用において必須の技術要素である。このような状況を鑑み、申請者は人工知能学会第26回全国大会においてオーガナイズドセッション「プライバシー保護データマイニング」を提案し採択された。このセッションは2012年6月13日に山口教育会館にて開催され、11件の発表が行われた。申請者のグループでは1件の発表を行った。これは、ネットワークにおける加入者同士の通信記録のようなデータを、自分以外のネットワーク参加者に知られることなく、類似した加入者のクラスタを発見するという内容であり、課題に記した相関のあるデータの良い例になっている。 研究目標に掲げた相関のあるデータについての差分プライバシーについては、以下のような成果を得た。データベースのレコード間に相関がある場合、例えば、医療データにおけるインフルエンザ患者数と居住地域のレコードは、差分プライバシーにおけるプライバシー情報漏洩リスクの増加分が、レコード間に相関がないデータベースの場合に比べて小さいことを示す数理モデルを考案した。ただし、このリスクの大きさの計算量は非常に大きなものになってしまうことも判明した。実用的な観点からすれば、具体的な問題に関して、実際に機能する理論、実応用例の調査が課題である。 なお、このような状況の社会的認知を目指して情報法におけるプライバシー保護データマイニングの位置づけや紹介という内容で著書の執筆、刊行を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初予定した相関を持つデータベースへの差分プライバシーに関しては、理論的検討を進め、相関がない場合の差分プライバシーよりも情報漏洩リスクが高まることを理論的に示した。これは、相関がある場合は、差分プライバシーの適用以前に大きな情報が質問者に知られているので、当然の結果といえる。数理的モデル化としては成功したが、計算量の大きさの点に問題があり、難関国際会議ではまだ論文が採択されていない。 一方、提案課題の基礎になるプライバシー保護データマイニングに関しては、ネットワーク情報へのプライバシー保護型のEMアルゴリズムの提案と論文発表、情報法におけるプライバシー保護データマイニングの位置づけについての著書(共著)などの成果をあげた。 よって、全体としては成果が上がっているといえる。
|
今後の研究の推進方策 |
2010年以降、プライバシー保護データマイニングの研究分野では、その社会的影響に関する研究がヨーロッパでは盛んになり、奨学金獲得者の人選は公平に行われたどうかを評価するモデルの研究が進んできている。このアイデアを一歩進めてみたとき、差分プライバシーあるいはより実用に近いk-匿名化においてデータベースへの質問結果、ないしデータベースそのものに加えられる雑音が引き起こす悪影響を考慮すべきだという着想にいたった。悪影響としてはインターネットにおける風評被害や濡れ衣が考えられる。これについては次年度に検討を進める。
|
次年度の研究費の使用計画 |
リサーチアソシエイト経費を計上して、雇用した大学院生のリサーチアソシエイトとともに、分野調査、理論の展開、シミュレーション実験を進める。また、プライバシー保護データマイニング関連の学会参加し、調査、論文発表のために国内旅費、外国旅費、および会議参加費を計上する。さらに、英文論文作成にあたっての英文添削費用も支出する予定である。
|