2017 Fiscal Year Annual Research Report
Statistical Security of Machine Learning
Project/Area Number |
16H02864
|
Research Institution | University of Tsukuba |
Principal Investigator |
佐久間 淳 筑波大学, システム情報系, 教授 (90376963)
|
Co-Investigator(Kenkyū-buntansha) |
日野 英逸 筑波大学, システム情報系, 准教授 (10580079)
神嶌 敏弘 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50356820)
兼村 厚範 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (50580297)
松田 隆宏 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (60709492)
村上 隆夫 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80587981)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 機械学習 / プライバシー / セキュリティ / 差分プライバシー / 公正性配慮型データマイニング |
Outline of Annual Research Achievements |
今年度は以下の4つの主要な実績があった。 (1)個人情報からなるベクトルを入力値として、線形モデルの評価値を公開した時に、第三者が評価値を得た場合,予測値から入力個人情報である入力値を推定される可能性がある.複数の線形回帰モデルから得た予測値から入力が推定されるリスクを定式化する方法を検討した。 (2)公平性を達成するような分類器を獲得する公平性配慮型分類問題について研究を行った.既存の方法では,確定的な決定則とモデルバイアスの影響を無視していたが,これらを考慮した分布について公平性を保つ実独立性の概念を提示した.この実独立性を達成することで,より高度な水準での公平性が達成できることを実験的にも確認した. (3)外れ値検知あるいは新規性検出手法について研究をした.特定の分布を仮定することなく仮説検定により客観的に外れ値を検知する方法を検討した.具体的には,k近傍距離に基づく任意の外れ値度関数を基に,検査点が外れ値か否かを仮説検定によって判別する.仮説検定を行うには検定統計量の分布が必要だが,これをブートストラップ法を用いて与えられたデータに基づいて推定する方法を考案した. (4)ユーザが自身のパーソナルデータに差分プライバシーを満たすようにノイズを加えてデータ解析者に送り,データ解析者が元のパーソナルデータが従う分布を推定する問題に関する研究を行った.具体的には,分布推定法として反復ベイズ法に着眼し,サンプル数が少数の場合における推定誤差を,Rilstoneらの理論に基づいて補正する手法について検討した。 そのほか、カイ二乗検定の差分プライバシー、経験的リスク最小化の局所差分プライバシー、深層学習によるmalware解析、f-divergence推定に関する理論解析、などの成果をえた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1)線形回帰モデルにおいて予測値から入力が推定されるリスクを定式化し、このリスクを抑えつつ有用性を保つような出力を与えるメカニズムの開発においては、研究は順調に進展しており、すでに国際会議にて発表した。複数のモデルから得た予測値について同時に公開した場合におけるリスクを抑制するメカニズムについての研究をすすめ、論文公開を目指す。 (2)公平性を達成するような分類器を獲得する公平性配慮型分類問題についても進捗は順調で、H30年度において、研究成果の国際会議発表を目指す。 (3)ユーザが自身のパーソナルデータに差分プライバシーを満たすようにノイズを加えてデータ解析者に送り,データ解析者が元のパーソナルデータが従う分布を推定する問題に関する研究については、H30年度に国際会議での発表を予定している。
|
Strategy for Future Research Activity |
(1)線形回帰モデルにおいて予測値から入力が推定されるリスクを定式化し、このリスクを抑えつつ有用性を保つような出力を与えるメカニズムの開発において、多数のモデルの予測値について同時に公開した場合については、リスク評価に計算爆発が起こる可能性がある。この点について、実データを用いた研究をすすめる。 (2)センシティブ特徴に関して公平性を保証した分類問題については、理論面について研究をすすめる. 特に、モデルベースの独立性を実現する技術を用いて、不均衡データなどのバイアスを削除に応用できるかを検討する。 (3) データ間の距離尺度の概念を導入した位置情報向け局所差分プライバシーを満たしつつ、分布を推定する問題を考え、サンプル数が少数の場合における推定誤差を、Rilstoneらの理論に基づいて補正する場合の理論解析を検討する。 (4) 新規の研究として、各個人からcontinualに生成されるセンシティブな離散データを、局所差分プライバシを保証しつつ公開し、それらから頻度など基礎的な統計量を推定する手法を開発するとともに、その有用性を理論解析する。 (5)ring-LWEは完全準同型暗号の実現のベースとなる困難性をもつ問題である。新規の研究として、ring-LWEの困難性を、統計的に再解釈し、新しいタイプのプライバシー保護手法を実現する手法について検討する。
|
Research Products
(11 results)