R&D of Machine Learning Mechanism for Privacy Preserving Data Mining over Different Industries
Project/Area Number |
20K11826
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60070:Information security-related
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
王 立華 国立研究開発法人情報通信研究機構, サイバーセキュリティ研究所, 主任研究員 (00447228)
|
Co-Investigator(Kenkyū-buntansha) |
小澤 誠一 神戸大学, 数理・データサイエンスセンター, 教授 (70214129)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | プライバシー保護 / 機械学習 / 連合学習 / 決定木 / 継続学習 / 追加学習 / 準同型暗号 / データマイニング / 秘密計算 / エッジコンピューティング / クラウドコンピューティング |
Outline of Research at the Start |
研究分担者(AI・機械学習専門家)1名と国内外の協力研究者(情報セキュリティ専門家、AI・機械学習専門大学院生)数名の研究体制で、これまで同業種データマイニングに向けた研究成果をベースにして研究を展開し、四年間計画で下記三つの研究課題に取り組んでいく。 課題1. [R2年度~R4年度] セキュアなクラウド・エッジコンピューティングに関する研究 課題2. [R2年度~R5年度] プライバシー保護しつつ直・並列学習メカニズムの設計 課題3. [R3年度~R5年度] オープンデータを使用して提案方式の高速実装と実用性評価
|
Outline of Annual Research Achievements |
プライバシー保護機械学習のための最先端の技術連合学習を勾配ブースティング決定木に導入した汎用的な継続学習方式を提案(8項で後述する課題の関連成果) ブロックチェーンベース認証技術:ブロックチェーンベース継続的なXGBoostモデルを適用した分散型モデルトレーニングを提案した。複数の銀行にブロックチェーン実装のアーキテクチャを提供し、バッチ及びストリーミングデータ処理として実証実験を行った。本アプローチを、集中型、個別型、及び連合学習型のXGBoostモデルと比較すると、優れた予測パフォーマンスを維持しつつ分散システムの環境を満たしている。成果は国際会議ICONIP2022で発表した。更に、昨年度提案した効率的な連合学習方式eFL-Boostベースの継続学習において、過学習を防ぐための事前・事後剪定手法を提案し、効率と安全性の強化を両立した方式をSCIS2023で発表した。 動的サンプリング手法による追加・継続学習の不均衡問題解決及び忘却防止:インターネットバンキングでのなりすましや詐欺、マネーロンダリングといった不正送金の被害が急増しており、このような犯罪の手口は検知を逃れるために時々刻々と変化することから、動的な環境に適応して異常検知を行う継続学習方式の開発が注目されている。本研究では、データ分布が変動する動的な環境下であっても、過去の重要な記憶の忘却を抑制しながら、新たなデータ分布への迅速な適応が可能な連合学習型の継続学習方式を提案した。成果はFAN2022で発表した。 決定木とk-匿名化の関係についての調査に続き、一意性攻撃や同種攻撃など多様な攻撃からプライバシー保護の実現を探求した。成果はSCIS2023で発表した。 上記の認証技術を分散型学習環境への適応手法、剪定手法による過学習防止、及び動的サンプリングベースの忘却防止手法は、同業種か異業種かに関わらず適用可能である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り進んでいる。 課題1(代表者が主担当)を巡り、(1-2) セキュアなクラウド・エッジ・クライアントコンピューティングの統合に関する最新動向を調査し、プライベートブロックチェーン及びスマートコントラクトを利用した認証付きな分散型秘密計算を考案している。 課題2(代表者と分担者が共同担当)を巡り、引き続き(2-1) 異業種のデータ解析にふさわしい垂直型連合学習の研究調査を行い、 (2-3) ブロックチェーンベース認証機能付き同・異業種に関係なく、汎用的な分散型勾配ブ―スティング決定木学習方式の設計を試作している。 課題3(分担者が主担当)を巡り、金融・医療のオープンデータセットを用いて、提案した汎用的なプライバシー保護勾配ブ―スティング決定木学習方式の実証実験を行い、精度および実行時間を測定し、実用性を評価している。特に、過学習を防ぐための事前・事後剪定の手法、及び忘却防止やデータ分布の不均衡問題を解決するための動的サンプリング手法は、継続的に変動するデータセットに対する学習に有用であり、精度を高めることができる。 定期的な勉強会(1回/週):今年度5月下旬~11月中旬の間、機械学習プロフェッショナルシリーズの「データ解析におけるプライバシー保護」及び論文ベース連合学習の勉強会を行った。また、水平型及び垂直型連合学習についてサーベイの作成を始めた。 課題2、3に関して、研究成果は、3件を国内学会で発表、1件を国際会議で発表、1件を国際論文誌で掲載した。また、課題1~3に関して、複数の提案を試作・投稿・準備している。
|
Strategy for Future Research Activity |
研究分担者とのリモート(1回/週)または対面(10回程度)での研究打ち合わせにより、課題1.セキュアなクラウド・エッジ・クライアントコンピューティング、課題2.プライバシー保護しつつ直・並列学習メカニズムの設計、および課題3.提案方式の高速実装と実用性評価について、次の通り取り組んでいく。 (研究分担計画):代表者によって全体的に統括するうえで、上記のプライバシー保護機械学習方式の設計は本プロジェクトメンバー全員が共同で行い、提案方式の実装・計算実験については研究分担者小澤教授の研究室の学生1人(神戸大学)が行う。 (具体的な推進方策):プライバシー保護機械学習、ブロックチェーンベース認証、及び異業種データ分析に役に立つ垂直型連合学習について研究調査兼勉強会を実施する。また、引き続き、これまで提案してきた同業種データの分析に適応できる水平型連合学習研究成果をさらなる垂直型連合学習へ展開する方法を模索し、定期的に研究セミナーを行う。研究成果を整理し、特許出願を行い、国内外学会発表するために、常に共同執筆できるようにOverleafで研究成果をまとめ、論文化する。提案方式の実証実験を行う際や論文投稿する際に、対面での研究打ち合わせを行う予定。 (予算分配):研究をスムーズに進めるため、旅費、論文投稿・掲載費用、及び学会参加費を合理的に予算分配する。 【旅費の使途】①対面での研究打ち合わせのための国内出張(東京⇔神戸1回/月);②研究調査及び成果発表を目的とした国内学会(JSAI 2023、CSS 2023、SCIS 2024)及び国際会議(ICONIP 2023、ACM CCS 2023)への現地参加で支出する。 【その他】学会参加費:上記国内学会及び国際会議の参加費;論文投稿・掲載費:誌上論文1本程度。
|
Report
(3 results)
Research Products
(11 results)