研究課題/領域番号 |
21H05052
|
研究種目 |
基盤研究(S)
|
配分区分 | 補助金 |
審査区分 |
大区分J
|
研究機関 | 東京大学 |
研究代表者 |
定兼 邦彦 東京大学, 大学院情報理工学系研究科, 教授 (20323090)
|
研究分担者 |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
清水 佳奈 早稲田大学, 理工学術院, 教授 (60367050)
渋谷 哲朗 東京大学, 医科学研究所, 教授 (60396893)
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
神保 洸貴 東京理科大学, 創域理工学部情報計算科学科, 助教 (80966630)
|
研究期間 (年度) |
2021-07-05 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
158,990千円 (直接経費: 122,300千円、間接経費: 36,690千円)
2024年度: 30,680千円 (直接経費: 23,600千円、間接経費: 7,080千円)
2023年度: 30,680千円 (直接経費: 23,600千円、間接経費: 7,080千円)
2022年度: 30,680千円 (直接経費: 23,600千円、間接経費: 7,080千円)
2021年度: 36,270千円 (直接経費: 27,900千円、間接経費: 8,370千円)
|
キーワード | 秘匿計算 / 簡潔データ構造 / 学習 |
研究開始時の研究の概要 |
「圧縮秘匿計算」という新概念を提案する.これは次のような概念である.(a) 秘匿計算:個人のプライバシーを保護するためにデータを暗号化したまま保存,計算する.(b) 圧縮索引:データに付加する補助情報を圧縮することで大規模データを省資源の計算機で高速に処理する.(c) 圧縮計算:データを圧縮することで冗長性を排除し,データからの学習・解析の性能・速度を向上させる.この技術を個人ゲノム医療解析,自然言語等の非定型データの解析に応用する.
|
研究実績の概要 |
秘密分散に基づく秘匿計算として,配列へのランダムアクセスを可能にするORAM,データ圧縮に用いる可変長符号の符号化・復号化,グループに分割されたデータのソート,AESを用いた暗号化についてそれぞれ効率的なプロトコルを開発した. Function Secret Sharing という手法を用い,秘密分散法を用いて格納された文字列からの全文検索と,決定木評価のためのプロトコルを開発した. 連合学習は,複数のパーティが自身の保有するデータを公開することなく,統合されたデータの学習を可能とすることを目的する技術である.データのカーネル値への変換にデータを秘匿する性質(データ秘匿性)があることを示した.カーネル値に基づく学習を安全に委託するためのスキームを示し,次いで,委託スキームに基づいた連合学習のフレームワークを提示した. 区間検索 (range search) は配列の一部分の要素に対して最大値等を計算する処理である.区間に関する情報を秘匿する単純な方法としては配列全体を読み込むものがあるが,通信量が多くなる.この問題に対し,セグメント木というデータ構造を用いることで通信量を削減した.区間に関する情報を秘匿するために,木の子ノードをランダムに並び替える処理を行っている.これにより,単純な方法より100倍高速にしている. 秘密分散以外にも,完全準同型暗号についても高速化を行った.完全準同型暗号は速度が非常に遅いため,実用的とは言えない.そこで様々なアルゴリズムの基本となる,ソートの高速化を行った.これまでは比較演算とソーティングネットワークを用いたアルゴリズムが知られているが,本研究では計数ソートを提案し,高速化を実現した. 秘密分散法に基づく秘匿計算ライブラリ csclib を開発し,その Python 版を公開した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究のテーマである,「圧縮秘匿計算」のための基本的な技術が開発できた.計算の高速化のための最も基本的な技術として二分探索がある.これは配列中の値を検索する際に全ての値を調べるのではなく一部の値のみを参照するだけで検索を行う手法だが,このような高速化は暗号化された値に対しては行いにくい.なぜなら配列のどの要素を参照したかという情報から,検索したい値についての情報が漏れてしまうからである.そのような情報を漏らさずに配列のアクセスを実現する分散 ORAM というデータ構造があるが,既存のものは効率があまり良くなかった.本研究ではこれを改善した. さらに,文字列データベースの検索に対し,二分探索アルゴリズムを用いた検索手法を提案した.これにより,検索したい文字列の長さに比例する回数の二分探索で,文字列を検索できるようになった.これは,分散 ORAM を単純に用いる場合よりも効率が良い. また,完全準同型暗号についても高速化を行ったが,その手法は秘密分散で用いられているものに基づくものである.これは,秘密分散法と完全準同型暗号という異なる手法に基づく秘匿計算を統一したアルゴリズムの開発に繋がる成果であり,今後の発展が期待できる.
|
今後の研究の推進方策 |
二分探索に基づく文字列検索のアルゴリズムとデータ構造を改良し,圧縮した文字列からの検索を実現する.そのためには,単調増加数列を圧縮して格納する必要がある.ただし,圧縮後のサイズから値に関する情報が漏れないようにするためにする必要があり,そのようなデータの圧縮法を考案する. 機械学習においてもプライバシーの保護が重要であり,秘匿計算が必要となる.情報を秘匿しつつ高速に学習を行うアルゴリズムの開発を行う. 開発中のライブラリ csclib の機能追加を行う.
|
評価記号 |
中間評価所見 (区分)
A: 研究領域の設定目的に照らして、期待どおりの進展が認められる
|