2023 Fiscal Year Research-status Report
Development of efficient and secure data structure for reference genome
Project/Area Number |
23K18515
|
Research Institution | Waseda University |
Principal Investigator |
清水 佳奈 早稲田大学, 理工学術院, 教授 (60367050)
|
Project Period (FY) |
2023-06-30 – 2026-03-31
|
Keywords | 参照ゲノム配列 / color de Bruijn graph / ヒトゲノム / プライバシ保護 / データ合成 |
Outline of Annual Research Achievements |
Society5.0時代の生命科学では,リアルタイムで計測される膨大なヒトゲノム配列を瞬時に共有して医学や医療に資する様々な知見を見出し,創薬や医療の高度化に役立てることが望まれている.新たに計測されたゲノム配列は,それ自身では有用な情報とはなりえず,過去に計測されたゲノム配列との比較により様々な知見を得ることができる.過去に計測されたゲノム配列は参照ゲノムとして様々な情報解析の基盤として用いられるが,近年,数多くの個人ゲノム配列が取得されるようになったことから,膨大な個人ゲノム配列に含まれる多様な情報を含む参照ゲノムの構築が必要とされている.そこで本研究では,過去に読み取られたヒトゲノム配列資源を余すことなく活用可能な参照ゲノムの構築法を研究する.ヒトゲノム配列の多様性を十分に表現可能な精密性を持ち,かつ,大規模な情報を効率よく圧縮表現する方法の開発を目指すのと同時に,個人ゲノム情報の漏えいの心配のない安全な構築法を開発する必要がある.このような目的のもと,今年度は基盤データ構造の効率化とデータの保護法の開発に取り組み,基盤データ構造の効率化については多数の個人ゲノム配列をグラフ上の表現するcolor de Bruijn graphについて研究を進め,データ圧縮とクエリ速度の良いトレードオフを実現する方法を開発した.また,データ保護については,ヒトゲノムの実データの特徴を良く模し,かつ,情報漏洩の少ない人工データを生成する方法について研究を進めた他,データを保護したまま検索を行う方法も研究した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度は,基盤データ構造の効率化とデータの保護法の開発に取り組んだ.基盤データ構造の効率化効率化については,文法圧縮のアルゴリズムやハミング距離近傍探索による差分表現を用いて,color matrix の疎かつ行ベクトルが類似しやすい性質を生かした圧縮を行った.その結果,提案手法は既存手法と比較してデータ構造のサイズ削減とクエリ応答の高速化のより良いトレードオフを実現した.データの保護に関しては,ヒトゲノム配列の人工データを合成する技術を開発した.人工データは, 実データの代替えとなりうる程度に実データの特徴を有する一方で, 必要以上に元データの情報を漏らさないように合成される必要があるが,本研究では, 個別データに対する勾配クリッピングや差分プライバシを用いることにより, 従来手法と比較して情報漏洩を抑制する手法を提案した.1000 ゲノムプロジェクトのデータセットを用いた実験では, アレル頻度や連鎖不均衡等の解析により, 人工合成したデータが学習データの特徴をよく捉えていることを示された. また, 提案手法により合成されたデータが, 既存手法と比べてメンバーシップ推定攻撃の被害を低減していることも確認した.これらの技術に加え,データを秘匿したまま範囲演算を行う手法も考案した.以上のように,基盤データ構造とデータ保護の両側面について取り組みが進んだことから,順調に進展していると評価した.
|
Strategy for Future Research Activity |
今年度開発した基盤データ構造をさらに改良し,圧縮率とクエリ速度を両立する手法の開発を目指す.また,今年度はk-merカウントやbubble call等を対象としたクエリの効率化を試みたが,グラフ上のアラインメントなど,多様なクエリの効率化にも取り組む.データ保護に関しては,人工合成の精度を高める技術開発を行うのと同時に,染色体全体のように非常に長い配列に対しても配列を秘匿したまま検索することが可能な技術の開発に取り組む.
|
Causes of Carryover |
当該年度に実施した開発について成果の得られた時期の関係から、想定より成果発表に必要な費用が少なかった。一方で、その分増加が見込まれる次年度の成果発表費用に使用する予定。
|