研究課題/領域番号 |
23K19955
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 東京大学 |
研究代表者 |
金子 竜也 東京大学, 大学院情報理工学系研究科, 特任助教 (80984252)
|
研究期間 (年度) |
2023-08-31 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 機械学習 / 連合学習 / 信頼されるAI / 公平性 / パーソナライズド連合学習 / クラスタリング連合学習 / 協調設計 / エッジデバイス |
研究開始時の研究の概要 |
今日のAIシステム・サービスの多くはクラウドにデータを集約し学習を行う中央集権型の処理形態であるが,プライバシー保護の観点からデータではなくAIモデルを集約し学習を行う連合学習が注目されている. 連合学習は多くの課題を抱えており,特に,多数の小型エッジデバイスから構成されるIoT上での連合学習では,従来のクライアントに偏重した演算負荷バランスは大きな課題となる. 本研究では,この解決に向けて従来の誤差逆伝播手法や最適化手法といった学習アルゴリズムを,エッジAIや連合学習特有の問題設定を前提に再精査・発展させることで,高性能と安心・安全を両立する連合学習基盤の実現を目指して研究を行う.
|
研究実績の概要 |
本研究は次世代の情報社会実現に寄与するすることを目的として,AI モデルの高性能化と安心・安全を両立する分散型機械学習基盤の実現を目指すものである.今日のAIモデルの発展は目覚ましく,ChatGPT等の大規模言語モデルをはじめとして,広く民間にまで普及している.一方で,このようなAIの処理形態では計算能力に優れた大規模なサーバへとデータを集約することからプライバシーについて懸念が生じている.そのため,データの秘匿性を保ったままAI処理を行う手法として連合学習が注目されている.AI処理のリアルタイム性という観点からもローカルデバイス上で処理をすることが望まれており,本研究では連合学習の抱える課題を解決することで研究目的の達成を目指す. 本年度では当初,連合学習が抱える演算負荷バランスの解消を目的とした学習アルゴリズムの提案を目的としていた.これは,クライアントデバイスとサーバから構成される中央集権型の連合学習において,演算リソースに劣るクライアントへと処理が偏重するという課題の解決を目指すものである.しかし,研究を進めるにつれ,連合学習が基盤技術として実世界で運用される際には参加者全てが公平にその恩恵を享受できる必要があると考えるに至った.個人に適応するモデルを提供する技術としてパーソナライズド連合学習が存在するが,その中でもクライアントを適切なグループへと分別するクラスタリング連合学習に着目し,研究の方向性を改めるに至った. クラスタリング連合学習においてもその演算負荷はクライアントに偏重しており,本年度の研究ではクラスタリングに係るオーバヘッドを解消する手法を提案した.提案手法は通信帯域やクライアントの演算コストを追加で発生させることなく従来手法と同等の性能を発揮できることを示し,その結果を電子情報通信学会の研究会で報告した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度では当初,連合学習が抱える演算負荷バランスの解消を目的とした学習アルゴリズムの提案を目的としていた.これは,クライアントデバイスとサーバから構成される中央集権型の連合学習において,演算リソースに劣るクライアントへと処理が偏重するという課題の解決を目指すものである.しかし,研究を進めるにつれ,連合学習が基盤技術として実世界で運用される際には参加者全てが公平にその恩恵を享受できる必要があると考えるに至った.そのため,個人に適応するモデルを提供する技術であるパーソナライズド連合学習の中でもクライアントを適切なグループへと分別するクラスタリング連合学習に着目し,研究の方向性を改めるに至った. クラスタリング連合学習においてもその演算負荷はクライアントに偏重しており,本年度の研究ではクラスタリングに係るオーバヘッドを解消する手法を提案した.提案手法は通信帯域やクライアントの演算コストを追加で発生させることなく従来手法と同等の性能を発揮できることを示し,その結果を電子情報通信学会の研究会で報告した.本手法は,各クライアントが保持するデータ分布の特徴はモデルへと反映されているという直感に基づき,サーバ側でそれを抽出することによりクライアントへのオーバヘッドを発生することなく適切なクラスタリングを行う技術である. また,共著論文として縞模様の車等のある特徴を持つデータに対してモデルの識別結果を誤認識させる攻撃技術である連合学習に対するバックドア攻撃や,従来浮動小数点方式で行われていたニューラルネットワークの学習を整数のみで学習することでエッジデバイスのような省演算デバイス上でも単独の学習を可能にするアルゴリズムを発表した.
|
今後の研究の推進方策 |
昨年度において提案したクラスタリング連合学習手法は,数学的・理論的な裏付けをもってその結果の正当性を主張するものではなく,実験的な結果でもってそれを示しているという課題が残っている.そのため,今年度においては理論的な主張を補強することでよりレベルの高い国際会議や査読付きの論文誌への投稿を目的とする. また,中央集権型の連合学習においてサーバが保持すべき共有データは実用上極めて重要な課題であると考えている.連合学習には通信量削減を目的として大規模なモデルそのものではなく,共有データに対するモデルの出力をで最適解を探索する手法や,悪意のあるクライアントによるモデル改ざんを検知することを目的として検証クライアントを用意することで攻撃の検知を行う手法が存在する.これらの手法はサーバや検証クライアントの持つデータ分布がクライアントのデータ分布と似ているということを暗黙的仮定しているが,多種多様なクライアントが参加する実運用を想定した場合にはその限りであるとは到底考えられない.そのため,クライアントのデータ分布をプライバシーを侵害することなく推察する技術が必要となるはずである.そこで,敵対的生成学習の枠組みを用いることでクライアントのデータ分布の概形を取得する手法を提案し,その有効性を評価することを目指す.
|