現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度は,基盤データ構造の効率化とデータの保護法の開発に取り組んだ.基盤データ構造の効率化効率化については,文法圧縮のアルゴリズムやハミング距離近傍探索による差分表現を用いて,color matrix の疎かつ行ベクトルが類似しやすい性質を生かした圧縮を行った.その結果,提案手法は既存手法と比較してデータ構造のサイズ削減とクエリ応答の高速化のより良いトレードオフを実現した.データの保護に関しては,ヒトゲノム配列の人工データを合成する技術を開発した.人工データは, 実データの代替えとなりうる程度に実データの特徴を有する一方で, 必要以上に元データの情報を漏らさないように合成される必要があるが,本研究では, 個別データに対する勾配クリッピングや差分プライバシを用いることにより, 従来手法と比較して情報漏洩を抑制する手法を提案した.1000 ゲノムプロジェクトのデータセットを用いた実験では, アレル頻度や連鎖不均衡等の解析により, 人工合成したデータが学習データの特徴をよく捉えていることを示された. また, 提案手法により合成されたデータが, 既存手法と比べてメンバーシップ推定攻撃の被害を低減していることも確認した.これらの技術に加え,データを秘匿したまま範囲演算を行う手法も考案した.以上のように,基盤データ構造とデータ保護の両側面について取り組みが進んだことから,順調に進展していると評価した.
|