Project/Area Number |
23KJ0649
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund |
Section | 国内 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
山本 章人 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
Project Period (FY) |
2023-04-25 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,000,000 (Direct Cost: ¥3,000,000)
Fiscal Year 2025: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2024: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2023: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | 差分プライバシー / ゲノム統計解析 / 医療データ共有 |
Outline of Research at the Start |
大規模データセットに対しても実用時間内で処理可能な、ゲノム統計解析手法にほとんど依存しない高精度なプライバシー保護手法の開発を行う。 本研究ではまず、私がこれまでに提案してきた高速フーリエ変換を活用した手法などを改良・拡張しながら、差分プライバシー理論を基軸とした効率的かつ高精度なアルゴリズムを設計する。そして、出力データに加わるノイズ分布を精査し、ゲノム統計解析に適した分布を探究するとともに、厳密なプライバシー保証も併せ持つ手法の開発を行う。さらに、各統計解析手法に特化したメカニズムも引き続き検討・開発し、あらゆる大規模ゲノム統計解析に通じる効率的かつ有用なプライバシー保護技術の完成を目指す。
|
Outline of Annual Research Achievements |
今年度は、差分プライバシーの基礎理論・手法の充実を図りながら、大規模ゲノム統計解析や医療データ共有への応用を見据えた研究発表を主に行った。 まず、DBSec2023において、局所差分プライバシー下でのゲノム統計解析手法を世界で初めて示した。応用的側面だけでなく、論文中では、特定の表データに対してプライバシー保証の面で最適な新たな基礎メカニズムも提案している。このアイデアを基に、複数属性情報を持つ一般のカテゴリカルデータ共有のためのプライバシー最適な技術を開発し、arXivにおいて公開している。今後は、より詳細な理論解析を行うとともに、数値データにも適用できる手法も開発する予定である。 PST2023では、差分プライバシーの世界における重要な概念であるSmooth Sensitivityを用いたゲノム統計量の公開手法を提案した。本手法は既存手法と比べて有意に高精度な結果をもたらすため、より信頼性の高いプライバシー保護ゲノム統計解析に向けた第一歩となりうる。また、ノイズ分布に関する基本性質の厳密な解析を行いながら、効率的なノイズ生成のための新たな定理も提示している。現在、本研究を基に、Smooth Sensitivityの可能性を広げるための基礎的研究等を進めている。 さらに、ICDMW2023では、データマイニング等の文脈で重視されているTop-k 選択タスクのための新たな差分プライベートな手法を提案し、大規模ゲノム統計解析において有益な拡張を行った。今後は、Smooth Sensitivityの活用等を検討しながら、より高精度かつ効率的な手法の構築・理論的な深化を目指す。 国内では、医療情報学分野の研究会において、医療データのプライバシー保護指標として一般的なk-匿名性を、差分プライバシーも満たしながら達成する手法を発表した。将来的にはl-多様性等との融合も考慮に入れる予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
セキュリティ・プライバシー保護・データマイニングに関する3つの主要な国際会議において査読つき論文を発表した。その他、arXivで公開済みの論文を含め2本の論文を投稿中であり、進捗としては遅れてはいない。 研究内容については、差分プライバシーの本質部分であるノイズ分布に関する理論解析を多少進展させたこと、そして基礎メカニズム構築に向けた柔軟な理論等を複数提案したことを踏まえると、大規模ゲノム統計解析に有用なプライバシー保護手法の開発の足がかりを提供できたと言える。 また、当初想定していた関連領域の一部との齟齬が確かめられたため、今後は専門分野を峻別しつつ、未経験の領域については幅広く本研究の発展可能性を探っていく。
|
Strategy for Future Research Activity |
今後も引き続き、差分プライバシー理論を基軸とし、ゲノム統計解析と医療データ共有の応用的側面から理論に関する基礎的側面に向けた探究を行う予定である。 まず、前年度の研究成果を基に、複数属性情報を持つ数値データ公開のためのプライバシー最適な手法を開発する。その際、依然行えていなかった最適性に関する理論保証について、厳密でなくともある程度の道筋を示すことを目指す。さらに、一般のデータ共有だけでなく、頻度・平均値推定等の各解析目的に特化した技術への応用も検討する。最終的には、差分プライバシーの世界におけるより精緻なプライバシーレベルの評価基準構築に向けて、ノイズ分布の理論解析も行う予定である。 その後、ゲノム統計解析の文脈におけるTop-k選択タスク、例えば重要遺伝子の抽出タスク等のための、局所差分プライバシー下での新たな手法を開発する。本研究により、今後のプライバシー保護ゲノム統計解析基盤のさらなる充実が期待される。これは既存技術の応用・活用に寄った研究となることが予想されるが、少なくとも、差分プライバシーの世界における様々な既存概念間の関係の探究と、その狭間にある全く新奇な概念・手法の実現に向けた目処は立てることを目指す。 また、これまでの研究を基に、Smooth Sensitivityの概念とランダムサンプリング技術を融合させた、ゲノム統計解析のための新たな差分プライベート手法も開発する予定である。同時に既存の最先端手法を拡張しながら、大規模データに対しても実用時間内で実行可能な効率的なアルゴリズムの構築も進める。 医療データ共有については、差分プライバシーとl-多様性・t-closeness等との融合技術の開発も検討する。 論文・学会発表としては、現在投稿中の2本について今後1年のうちに海外・国内ともで発表することを目指しながら、上記の研究に関して3本程度の論文執筆を行う予定である。
|