2016 Fiscal Year Annual Research Report
A Study of Privacy Protection in Information Retrieval
Project/Area Number |
15H02700
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
菊池 浩明 明治大学, 総合数理学部, 専任教授 (20266365)
荒井 ひろみ 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (20631782)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 差分プライバシー / 密度比推定 / Gibbs事後分布 / 質問秘匿 / ダミー単語 / 特許検索 |
Outline of Annual Research Achievements |
(1)サンプリングと差分プライバシーに関しては、サンプリングされたデータとして公開済のデータ、プライバシー保護すべきデータとして要配慮情報の入っているデータを設定し、公開済のデータに対して密度比推定を行って元データを推定する枠組みで検討を進めた。処理過程に差分プライバシーを適用する方法の検討を続けた。密度比推定で用いる既定関数および重みベクトルに差分プライバシーを適用する。差分プライバシーの合成定理により、これらの差分プライバシーは最終結果に加算的に作用してプライバシー保護ができる。まずデータの分布関数に関してはε-δ差分プライバシーを使うことによって、従来手法よりよい近似データを得ることが分かった。また、UCI機械学習リポジトリのAdultデータセットに対する分類タスクを行った結果、PCAによる次元削減を組み合わせてSVM分類で評価したところ、提案手法は差分プライバシーなしの密度比推定と同程度の精度を得ることが確認できた。 (2)差分プライバシーの理論的拡張に関しては、前年度に得たGibbs事後分布による拡張の数理モデルの精密化を行い、国際会議NIPSで論文発表した。 (3)質問意図の秘匿に関しては、特許データ検索において複数の単語からなる質問の集合にトピックモデル分析手法LSAを適用し,質問意図の秘匿のために加算するダミー単語候補集合を作った。ダミー単語として、質問単語と同一トピック内から類似単語を選ぶ場合、異なるトピックから単語を選ぶ場合を提案し、攻撃者が質問者に関する事前知識を持たない場合は、NTCIR6の特許データベースで実験的評価を行った結果、真の質問単語推定精度が加えたダミー単語数に反比例して低下するという理想的な結果を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
密度比推定と差分プライバシーを組み合わせる提案手法は、差分プライバシーなしの密度比推定と比較してUCIリポジトリの機械学習評価用データに分類タスクを適用した結果においてほぼ同程度の分類精度を得ることができた。 差分プライバシーの理論的拡張に関しては、機械学習の難関国際会議NIPS2016で論文採択、発表という国際的成果をあげた。 質問秘匿に関しては、特許検索において、元の質問に加算するダミー質問を生成する方法として質問集合に対してトピックモデルを適用する手法が提案できた。
|
Strategy for Future Research Activity |
質問秘匿に関しては、より強力な攻撃者モデルを想定した対策および評価実験を進める。 本年度、得た知見、すなわちビッグデータ利活用の要のひとつとなる改正個人情報保護法で導入された匿名加工情報の作成アルゴリズムの検討に関して、購買履歴データベースに対するプライバシー保護アルゴリズムの開発と提案を競争型タスクPWSCUPへの参加と通して発展させる。
|
Research Products
(10 results)