研究課題/領域番号 |
16H02864
|
研究機関 | 筑波大学 |
研究代表者 |
佐久間 淳 筑波大学, システム情報系, 教授 (90376963)
|
研究分担者 |
日野 英逸 筑波大学, システム情報系, 准教授 (10580079)
神嶌 敏弘 国立研究開発法人産業技術総合研究所, 人間情報研究部門, 研究員 (50356820)
兼村 厚範 国立研究開発法人産業技術総合研究所, 人間情報研究部門, 研究員 (50580297)
松田 隆宏 国立研究開発法人産業技術総合研究所, 情報技術研究部門, 研究員 (60709492)
村上 隆夫 国立研究開発法人産業技術総合研究所, 情報技術研究部門, 研究員 (80587981)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | プライバシー / セキュリティ / 機械学習 / 公平性 |
研究実績の概要 |
本年度は、機械学習や統計的データ解析の安全性・プライバシー・公平性の保証などにおいて、以下の研究に取り組んだ。 (1)多数の人や組織からデータを収集する際におけるプライバシ保護の枠組みとして、局所差分プライバシーの研究を行った。具体的には、集約されたデータから局所的差分プライバシーやGeo-indistiguishabilityを満たしつつ,人口分布などの統計情報を反復ベイズ法に基づいて推定する際のバイアスを理論的に解析した。 (2)個人に関わる予測や判断を行う際の、その予測・判断結果に関する公平性を保証する公平性配慮型学習における研究を行った。具体的には、センシティブ特徴に関して公平性を保証した分類問題についての理論面について研究をすすめた、分類問題の公平性にとって,モデルバイアスと確定的な決定則が重要であることを示した。 (3)個人情報を入力値として予測値を提供するときに、その予測値から、個人情報である入力値を推定できる可能性がある。このような、予測値を提供するサービスにおいて、予測値公開のリスク評価手法とそのリスクを提言する手法を提案した。 (4)データ解析において、統計的安全性を精密に評価するためには、統計量の精密な評価が必要である。離散分布において単一の連続関数 によって加法分解可能なスカラー汎関数を推定する問題に取り組んだ。対象とした汎関数は Shannon エントロピー,Renyi エントロピーなどの統計量を表現可能である。この研究では、いくつかの仮定の下である推定量を提案し、これがミニマックス最適なレートを持つことを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では、機械学習や統計的データ解析の、(1)入力に関する安全性、(2)出力に関する安全性、(3)出力に関する公平性およびそれに関する基礎研究を目的とする。今年度はこれら全ての項目について研究上の進展があり、一部は研究発表につながった。
|
今後の研究の推進方策 |
(1) 差分プライバシを保証したモデル公開は無限回の予測について差分プライバシを保証するが, 有限個の未ラベルデータの予測のみ必要ならば, より優れた有用性を達成できる可能性がある. この設定はプライバシを考慮しない場合には Transductive 学習として定義される. Transductive 学習のアイディアを差分プライバシに組み込み, 提案アルゴリズムの安全性証明および有用性の解析を行う. (2)センシティブ特徴に関して公平性を保証した分類問題についての理論面について研究をすすめる. 分類問題の公平性にとって,モデルバイアスと確定的な決定則が重要であることを示す. (3)位置情報プライバシーにおける位置パラメタ推定の有限サンプルにおけるバイアス・バリアンスの定量化と,それらとプライバシー保護パラメタとの関連を理論的に解析する. (4)昨年度までの情報収集・検討に基づき、能動的な攻撃に対し頑健な機械学習の「安全性」の定式化のさらなる検討を進め、さらにそれを満たす機械学習手法に取り組む。 (5)局所的差分プライバシーに対してデータ間の距離尺度の概念を導入した指標[Chatzikokolakis+,PETS13][Andres+,CCS13]を満たしつつ,人口分布などの統計情報を推定する問題を考え,有用性と安全性のトレードオフを最適化するメカニズムについて理論解析を行う. (6)時系列データ、生体解析データにスパース推定を適用し、得られたパタンからの個人識別性を評価する。特に、複数人の脳活動データを、スパース基底学習の枠組みで解析することで、個人間に共通する基底と個人ごとに異なる変換とに分離し、後者による個人識別実験を実施する。
|