2022 Fiscal Year Research-status Report

R&D of Machine Learning Mechanism for Privacy Preserving Data Mining over Different Industries

Research Project

Project/Area Number	20K11826
Research Institution	National Institute of Information and Communications Technology
Principal Investigator	王立華国立研究開発法人情報通信研究機構, サイバーセキュリティ研究所, 主任研究員 (00447228)
Co-Investigator(Kenkyū-buntansha)	小澤誠一神戸大学, 数理・データサイエンスセンター, 教授 (70214129)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	プライバシー保護 / 機械学習 / 連合学習 / 決定木 / 継続学習
Outline of Annual Research Achievements	プライバシー保護機械学習のための最先端の技術連合学習を勾配ブースティング決定木に導入した汎用的な継続学習方式を提案(８項で後述する課題の関連成果) ブロックチェーンベース認証技術：ブロックチェーンベース継続的なXGBoostモデルを適用した分散型モデルトレーニングを提案した。複数の銀行にブロックチェーン実装のアーキテクチャを提供し、バッチ及びストリーミングデータ処理として実証実験を行った。本アプローチを、集中型、個別型、及び連合学習型のXGBoostモデルと比較すると、優れた予測パフォーマンスを維持しつつ分散システムの環境を満たしている。成果は国際会議ICONIP2022で発表した。更に、昨年度提案した効率的な連合学習方式eFL-Boostベースの継続学習において、過学習を防ぐための事前・事後剪定手法を提案し、効率と安全性の強化を両立した方式をSCIS2023で発表した。動的サンプリング手法による追加・継続学習の不均衡問題解決及び忘却防止：インターネットバンキングでのなりすましや詐欺、マネーロンダリングといった不正送金の被害が急増しており、このような犯罪の手口は検知を逃れるために時々刻々と変化することから、動的な環境に適応して異常検知を行う継続学習方式の開発が注目されている。本研究では、データ分布が変動する動的な環境下であっても、過去の重要な記憶の忘却を抑制しながら、新たなデータ分布への迅速な適応が可能な連合学習型の継続学習方式を提案した。成果はFAN2022で発表した。決定木とk-匿名化の関係についての調査に続き、一意性攻撃や同種攻撃など多様な攻撃からプライバシー保護の実現を探求した。成果はSCIS2023で発表した。上記の認証技術を分散型学習環境への適応手法、剪定手法による過学習防止、及び動的サンプリングベースの忘却防止手法は、同業種か異業種かに関わらず適用可能である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画通り進んでいる。課題１（代表者が主担当）を巡り、(1-2) セキュアなクラウド・エッジ・クライアントコンピューティングの統合に関する最新動向を調査し、プライベートブロックチェーン及びスマートコントラクトを利用した認証付きな分散型秘密計算を考案している。課題２（代表者と分担者が共同担当）を巡り、引き続き(2-1) 異業種のデータ解析にふさわしい垂直型連合学習の研究調査を行い、 (2-3) ブロックチェーンベース認証機能付き同・異業種に関係なく、汎用的な分散型勾配ブ―スティング決定木学習方式の設計を試作している。課題３（分担者が主担当）を巡り、金融・医療のオープンデータセットを用いて、提案した汎用的なプライバシー保護勾配ブ―スティング決定木学習方式の実証実験を行い、精度および実行時間を測定し、実用性を評価している。特に、過学習を防ぐための事前・事後剪定の手法、及び忘却防止やデータ分布の不均衡問題を解決するための動的サンプリング手法は、継続的に変動するデータセットに対する学習に有用であり、精度を高めることができる。定期的な勉強会（1回/週）：今年度５月下旬～11月中旬の間、機械学習プロフェッショナルシリーズの「データ解析におけるプライバシー保護」及び論文ベース連合学習の勉強会を行った。また、水平型及び垂直型連合学習についてサーベイの作成を始めた。課題２、３に関して、研究成果は、３件を国内学会で発表、1件を国際会議で発表、1件を国際論文誌で掲載した。また、課題１～３に関して、複数の提案を試作・投稿・準備している。
Strategy for Future Research Activity	研究分担者とのリモート（１回/週）または対面（10回程度）での研究打ち合わせにより、課題１.セキュアなクラウド・エッジ・クライアントコンピューティング、課題２.プライバシー保護しつつ直・並列学習メカニズムの設計、および課題３.提案方式の高速実装と実用性評価について、次の通り取り組んでいく。（研究分担計画）：代表者によって全体的に統括するうえで、上記のプライバシー保護機械学習方式の設計は本プロジェクトメンバー全員が共同で行い、提案方式の実装・計算実験については研究分担者小澤教授の研究室の学生１人（神戸大学）が行う。（具体的な推進方策）：プライバシー保護機械学習、ブロックチェーンベース認証、及び異業種データ分析に役に立つ垂直型連合学習について研究調査兼勉強会を実施する。また、引き続き、これまで提案してきた同業種データの分析に適応できる水平型連合学習研究成果をさらなる垂直型連合学習へ展開する方法を模索し、定期的に研究セミナーを行う。研究成果を整理し、特許出願を行い、国内外学会発表するために、常に共同執筆できるようにOverleafで研究成果をまとめ、論文化する。提案方式の実証実験を行う際や論文投稿する際に、対面での研究打ち合わせを行う予定。（予算分配）：研究をスムーズに進めるため、旅費、論文投稿・掲載費用、及び学会参加費を合理的に予算分配する。【旅費の使途】①対面での研究打ち合わせのための国内出張（東京⇔神戸１回/月）；②研究調査及び成果発表を目的とした国内学会（JSAI 2023、CSS 2023、SCIS 2024）及び国際会議（ICONIP 2023、ACM CCS 2023）への現地参加で支出する。【その他】学会参加費：上記国内学会及び国際会議の参加費；論文投稿・掲載費：誌上論文1本程度。
Causes of Carryover	（理由）計画当初は定期的な研究打合せ及び国内学会・国際会議参加のための旅費及び謝金を予算したが、コロナ禍の影響で、国際会議がほとんどオンライン開催に変更されたため、当初想定していた旅費を大きく下回った；また、出勤率制限されたため研究補助員の雇用も後回しになった。研究補助員の代わりに神戸大学の協力研究者に実装を担当してもらっているが、コロナ禍の影響でこれまで３年間協力研究者たちとの対面打合せがわずか１回のみに留まって、不十分である。よって、研究実施の進捗状況はおおむね順調に進展しているが、理想ではなかった。（使用計画）上記の状況を改善するために努力し、神戸大学のメンバーと対面打合せ回数を月に１回まで増やす予定。また、最終年度には研究成果を積極的に社会発信するため、国際会議と論文誌上成果発表を行う予定であるが、コロナ禍の影響で国際便激減及び円安が重なり、諸費用の値段が高騰しているので、令和4年度までに未使用金として残った77万円ほどの金額について、下記のとおり旅費、及び学会参加費や別刷り代など論文掲載料に充てる予定。【旅費】国内旅費（約15万円）、国際旅費（約45万円）【物品費・その他】学会参加費（約2万円）、別刷り代など論文掲載料（約15万円）

Research Products
(7 results)

All 2023 2022 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (3 results) Remarks (2 results)

[Journal Article] Permissioned Blockchain-Based XGBoost for Multi Banks Fraud Detection2023
- Author(s)
  Asrori Septiviana Savitri、Wang Lihua、Ozawa Seiichi
- Journal Title
  
  ICONIP 2022: Neural Information Processing
  
  Volume: LNCS 13625 Pages: 683～692
- DOI
  10.1007/978-3-031-30111-7_57
- Peer Reviewed
[Journal Article] eFL-Boost: Efficient Federated Learning for Gradient Boosting Decision Trees2022
- Author(s)
  Yamamoto Fuki、Ozawa Seiichi、Wang Lihua
- Journal Title
  
  IEEE Access
  
  Volume: 10 Pages: 43954～43963
- DOI
  10.1109/ACCESS.2022.3169502
- Peer Reviewed / Open Access
[Presentation] 決定木と(k-)匿名化の関係について2023
- Author(s)
  若林亮輔、王立華、野島良、早稲田篤志
- Organizer
  2023年暗号と情報セキュリティシンポジウム（SCIS 2023）、1B1-4（Jan. 2023）
[Presentation] BFL-Boost: Blockchain-based Federated Learning for Gradient Boosting to Enhance Security in Model Training2023
- Author(s)
  Asrori Septiviana Savitri、Wang Lihua、Ozawa Seiichi
- Organizer
  2023年暗号と情報セキュリティシンポジウム（SCIS 2023）、1D2-2（Jan. 2023）
[Presentation] 動的サンプリングを使用した勾配ブースティング決定木の連合追加学習2022
- Author(s)
  三浦啓吾、井上広明、金相旭、王立華、小澤誠一
- Organizer
  第30回インテリジェント・システム・シンポジウム（FAN 2022）、pp.235-239（Sept. 2022）
[Remarks] Home page
- URL
  https://sfl.nict.go.jp/people/lihua-wang.html
[Remarks] DBLP 王立華
- URL
  https://dblp.org/pid/28/2290-1.html

2022 Fiscal Year Research-status Report

R&D of Machine Learning Mechanism for Privacy Preserving Data Mining over Different Industries

Principal Investigator

王 立華 国立研究開発法人情報通信研究機構, サイバーセキュリティ研究所, 主任研究員 (00447228)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Permissioned Blockchain-Based XGBoost for Multi Banks Fraud Detection2023

Author(s)

Journal Title

DOI

[Journal Article] eFL-Boost: Efficient Federated Learning for Gradient Boosting Decision Trees2022

Author(s)

Journal Title

DOI

[Presentation] 決定木と(k-)匿名化の関係について2023

Author(s)

Organizer

[Presentation] BFL-Boost: Blockchain-based Federated Learning for Gradient Boosting to Enhance Security in Model Training2023

Author(s)

Organizer

[Presentation] 動的サンプリングを使用した勾配ブースティング決定木の連合追加学習2022

Author(s)

Organizer

[Remarks] Home page

URL

[Remarks] DBLP 王立華

URL

王立華国立研究開発法人情報通信研究機構, サイバーセキュリティ研究所, 主任研究員 (00447228)