研究課題/領域番号 |
21K19767
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分60:情報科学、情報工学およびその関連分野
|
研究機関 | 大阪成蹊大学 (2023) 京都大学 (2021-2022) |
研究代表者 |
吉川 正俊 大阪成蹊大学, データサイエンス学部, 教授 (30182736)
|
研究分担者 |
曹 洋 北海道大学, 情報科学研究院, 准教授 (60836344)
鄭 舒元 大阪大学, 大学院情報科学研究科, 特任助教(常勤) (30994694)
|
研究期間 (年度) |
2021-07-09 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2023年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | プライバシ保護 / 機械学習 / 連合学習 / シャープレー値 / パーソナルデータ市場 / パーソナルデータ / プライバシー保護 / 差分プライバシー / データ価値査定 |
研究開始時の研究の概要 |
国家によるGAFAなどのプラットフォーム大手に対する規制とは別に,各個人がパーソナルデータを管理,制御する手法を開発することにより,パーソナルデータを個人及び社会の資産として活用するための健全なデータ流通系を構築することを目的とする.流通系にパーソナルデータを取得しようとするする悪意を持った者が存在することを仮定する安全なデータ流通系の構築を目指す.各個人がパーソナルデータの種類ごとにプライバシー保護を望む程度に応じて,個人が提供したパーソナルデータに対する対価を得るための技術開発を行う.
|
研究実績の概要 |
クロスサイロ連合学習は,異なる組織が持つプライベートデータを共有せずに共同で機械学習モデルを訓練する手法である.各組織は自身のデータを保持したままモデルパラメータの更新情報のみを交換する.これにより,プライバシーを保護しつつ,各組織の多様なデータを訓練データとする機械学習モデルを得ることができ,特に,データセキュリティやプライバシが重視される銀行や医療機関などで有効な機械学習の訓練方法である. クロスサイロ連合学習においては,各組織が持つデータが学習モデル構築に貢献した度合いを評価することが重要になる.シャープレー値(Shapley Value)はそのための公平で原理的な指標である.しかし,連合学習における既存のシャープレー値計算手法は,サーバが生の連合学習モデルと公開テストデータにアクセスできることを前提としている.これは,連合学習モデルに対する新たなプライバシ攻撃や、テストデータが組織の資産である可能性を考慮すると,実際には有効な仮定ではない. そこで,クロスサイロ連合学習における安全なシャープレー値計算手法を開発した.まず,プライバシー保護のための準同型暗号(HE)のみに基づく1サーバによる計算手法としてHESVを開発した.しかし,HESVには性能限界があるため,次に,効率的な2サーバプロトコルであるSecSVを開発した.SecSVの特徴としては,第一に,ハイブリッドプライバシー保護方式を利用し,準同型暗号で非常に時間がかかるテストデータとモデル間の暗号文-暗号文の乗算を回避する.第二に,SecSVのために効率的かつ安全な行列乗算法を提案した.第三に、SecSVは、評価精度に大きな影響を与えずに,いくつかのテストサンプルを戦略的に識別しスキップする.SecSVはHESVと比較し7.2~36.6倍高速であり,計算されたシャープレー値の精度の損失は限定的であることを実証した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
クロスサイロ連合学習は,複数の組織が保有するデータをプライバシー保護をしたまま共同で連合学習するための有効な手法である.パーソナルデータの流通のためには,データの価値査定が重要になるが,今年度の研究ではそのためのシャープレー値計算の効率的な手法を開発し,トップクラスの国際学術論文誌であるProceedings of the VLDB Endowmentに成果論文が掲載された.
|
今後の研究の推進方策 |
本補助事業の目的を精緻に達成するために,データの価値査定に関してシャープレー値の変種も含めた,より頑健な手法に関する研究を行う予定である.
|