2021 Fiscal Year Research-status Report
R&D of Machine Learning Mechanism for Privacy Preserving Data Mining over Different Industries
Project/Area Number |
20K11826
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
王 立華 国立研究開発法人情報通信研究機構, サイバーセキュリティ研究所, 主任研究員 (00447228)
|
Co-Investigator(Kenkyū-buntansha) |
小澤 誠一 神戸大学, 数理・データサイエンスセンター, 教授 (70214129)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | プライバシー保護 / 機械学習 / 連合学習 / 決定木 / 追加学習 |
Outline of Annual Research Achievements |
プライバシー保護機械学習ための最先端の技術連合学習(FL)を勾配ブースティング決定木(GBDT)に導入した二つの汎用的な方式を提案(8項で後述する課題2と3の関連成果) [1]効率的な学習方式eFL-Boost:通常の木構造モデルはグローバルな計算のために高い通信コストを負担することが知られているが、葉の重みはそれほどコストを必要とせず、精度に比較的大きく寄与する。そこで本提案では、木構造は1組織でローカルに決定され、葉の重みは全ての組織のローカル勾配を集約することによってグローバルに計算されるようにローカル計算とグローバル計算を割り当てることで、精度の損失、通信コスト及び情報漏洩を最小限に抑えるモデルを提案した。具体的には、eFL-Boostは更新毎に3回の通信のみを必要とし、プライバシーリスクの低い統計情報のみが他の組織に漏洩する。公開データセットのパフォーマンス評価により、提案モデルは通信コストが低く、プライバシー保護を提供しないスキームと同等の既存のスキームの精度を上回った。成果は論文誌IEEE ACCESSに採録された。 [2]動的サンプリングを用いたGBDTの連合追加学習方式:逐次的に新たなデータが与えられる環境で、動的サンプリング(モデルの学習時に訓練データをサンプリングし、訓練データに対するモデルの精度をもとに、イテレーション毎にサンプリング確率を更新すること)を用い、決定木の数を抑制しつつ追加学習を行うGBDTモデルを提案。サンプリング手法に関しては、データの重みと、勾配情報に基づく2通りの手法を実装した。結果として、提案手法は従来のGBDTの追加学習と比較して少ない弱学習器で高い精度を出すことができ、従来の手法では精度が落ちた場面でも安定した性能をキープしていた。成果は国内学会SCIS2022にて発表した。 [1]のローカル計算とグローバル計算分配手法、及び[2]の動的サンプリング手法は、同業種か異業種かに関わらず適用可能である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り進んでいる。 課題1(代表者が主担当)を巡り、まず、昨年度提案したセキュアな大小比較方式を利用し、対話型と非対話型プライバシー保護決定木推測の改良を考案した。これは(1-1)セキュアな大小比較技術とセキュアなクラウドコンピューティング技術を融合する位置づけのものである。次に、(1-2) セキュアなクラウド・エッジ・クライアントコンピューティングの統合に関する最新動向を調査している。 課題2(代表者と分担者が共同担当)を巡り、まず、研究分担者の小澤誠一教授及び小澤研究室の大学院生二人は、(2-1)複数の組織に所有されている同業種のデータから抽出した異なる特徴量に対する対処法を検討するとともに、引き続き異常検知及び追加学習について研究調査を行う。また、同業種データ向けの研究を進めており、来年度から異業種データへの展開を取り組んで行く予定。次に、代表者が主導で、(2-2)認証機能付き異業種データの解析に適用可能なプライバシー保護したまま学習メカニズムの設計に向け、ブロックチェーンの基礎勉強及び応用調査を進めており、分散型勾配ブ―スティング決定木学習方式の設計を試作している。 定期的な勉強会(1回/週):ブロックチェーンの基礎勉強、及び分散型学習技術Swarm Learningの勉強を行った。水平型・垂直型連合学習の勉強を進めている。 課題2と3に関して、研究成果1件を国内学会で発表、1件を国際論文誌に採録された。また、課題1~3に関して、複数の提案を試作・投稿・準備している。さらに、提案方式の実装をするため、研究分担者 小澤誠一 教授(神戸大学)が計算実験に用いるPCを購入した。
|
Strategy for Future Research Activity |
研究分担者とのリモートまたは対面(可能な限り)での研究打ち合わせにより、課題1.セキュアなクラウド・エッジ・クライアントコンピューティング、課題2.プライバシー保護しつつ直・並列学習メカニズムの設計、および課題3.提案方式の高速実装と実用性評価について、次の通り取り組んでいく。 研究分担計画:代表者によって全体的に統括するうえで、上記のプライバシー保護機械学習方式の設計は本プロジェクトメンバー全員が共同で行い、提案方式の実装・計算実験については研究分担者小澤教授の研究室の学生3人(神戸大学)が行う。 具体的な推進方策:プライバシー保護機械学習、ブロックチェーン、及び異業種データ分析に役に立つ垂直型連合学習について研究調査兼勉強会を実施する(1回/週)。また、これまで提案してきた同業種データの分析に適応できる水平型連合学習研究成果をさらなる垂直型連合学習へ展開する方法を模索し、引き続き定期的に研究セミナーを行う(1回/隔週)。研究成果を整理し、特許出願を行い、国内外学会発表するために、常に共同執筆できるようにOverleafで研究成果をまとめ、論文化する。提案方式の実証実験を行う際や論文投稿する際に、対面での研究打ち合わせを行う予定(4回程度)。 予算分配:研究をスムーズに進めるため、旅費、論文投稿・掲載費用、及び学会参加費を合理的に予算分配する。旅費の使途:対面での研究打ち合わせ(1回/3ヶ月);論文投稿・掲載費:誌上論文2本程度;学会参加費の使途:研究調査及び成果発表を目的とした国内・国際会議へのオンライン・現地参加で支出する予定。
|
Causes of Carryover |
(理由)計画当初は定期的な研究打合せ及び国内学会・国際会議参加ための旅費及び謝金を予算したが、コロナ禍の影響で、国際会議が全てオンライン開催に変更されたため、当初想定していた旅費を大きく下回った;また、出勤率制限されたため研究補助員の雇用も後回しになった。 (使用計画)令和3年度までに未使用金として残った46万円ほどの金額について、下記のとおり別刷り代など論文掲載料や、研究用図書などの資料購入に充てる予定。 【物品費・その他】図書など資料の購入(代表者:約5万円)、成果発表するための別刷り代など論文掲載料(代表者:約10万円、研究分担者:約19万円) 【人件費・謝金】研究補充者を雇用するための謝金約12万円。
|
Research Products
(2 results)