精密で安全な参照ゲノムの研究

研究課題

研究課題/領域番号	23K18515
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分62:応用情報学およびその関連分野
研究機関	早稲田大学
研究代表者	清水佳奈早稲田大学, 理工学術院, 教授 (60367050)
研究期間 (年度)	2023-06-30 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2025年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円) 2024年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円) 2023年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
キーワード	参照ゲノム配列 / color de Bruijn graph / ヒトゲノム / プライバシ保護 / データ合成 / 参照ゲノム / 個人ゲノム / 秘密計算 / アルゴリズム
研究開始時の研究の概要	新たに計測されたゲノム配列は，それ自身では有用な情報とはなりえず，「参照ゲノム」と呼ばれる既知の代表配列と比較することによって様々な知見を得ることができる．しかし，現在用いられているヒトの参照ゲノムは，単純な配列情報にとどまり，日進月歩で蓄積の進む膨大な個人ゲノム配列に含まれる多様な情報を含んでいないため，新たに決定したゲノム配列の分析精度が低下してしまう問題がある．そこで本研究では，過去に読み取られたヒトゲノム配列資源を余すことなく活用可能な新しい参照ゲノムの構築法を研究する．ヒトゲノム配列の多様性を十分に表現する精密性を保ちながらも，簡潔で，かつ，プライバシ保護が可能な方法を研究する．
研究実績の概要	Society5.0時代の生命科学では，リアルタイムで計測される膨大なヒトゲノム配列を瞬時に共有して医学や医療に資する様々な知見を見出し，創薬や医療の高度化に役立てることが望まれている．新たに計測されたゲノム配列は，それ自身では有用な情報とはなりえず，過去に計測されたゲノム配列との比較により様々な知見を得ることができる．過去に計測されたゲノム配列は参照ゲノムとして様々な情報解析の基盤として用いられるが，近年，数多くの個人ゲノム配列が取得されるようになったことから，膨大な個人ゲノム配列に含まれる多様な情報を含む参照ゲノムの構築が必要とされている．そこで本研究では，過去に読み取られたヒトゲノム配列資源を余すことなく活用可能な参照ゲノムの構築法を研究する．ヒトゲノム配列の多様性を十分に表現可能な精密性を持ち，かつ，大規模な情報を効率よく圧縮表現する方法の開発を目指すのと同時に，個人ゲノム情報の漏えいの心配のない安全な構築法を開発する必要がある．このような目的のもと，今年度は基盤データ構造の効率化とデータの保護法の開発に取り組み，基盤データ構造の効率化については多数の個人ゲノム配列をグラフ上の表現するcolor de Bruijn graphについて研究を進め,データ圧縮とクエリ速度の良いトレードオフを実現する方法を開発した．また，データ保護については，ヒトゲノムの実データの特徴を良く模し，かつ，情報漏洩の少ない人工データを生成する方法について研究を進めた他，データを保護したまま検索を行う方法も研究した．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本年度は，基盤データ構造の効率化とデータの保護法の開発に取り組んだ．基盤データ構造の効率化効率化については，文法圧縮のアルゴリズムやハミング距離近傍探索による差分表現を用いて，color matrix の疎かつ行ベクトルが類似しやすい性質を生かした圧縮を行った．その結果，提案手法は既存手法と比較してデータ構造のサイズ削減とクエリ応答の高速化のより良いトレードオフを実現した．データの保護に関しては，ヒトゲノム配列の人工データを合成する技術を開発した．人工データは, 実データの代替えとなりうる程度に実データの特徴を有する一方で, 必要以上に元データの情報を漏らさないように合成される必要があるが，本研究では, 個別データに対する勾配クリッピングや差分プライバシを用いることにより, 従来手法と比較して情報漏洩を抑制する手法を提案した.1000 ゲノムプロジェクトのデータセットを用いた実験では, アレル頻度や連鎖不均衡等の解析により, 人工合成したデータが学習データの特徴をよく捉えていることを示された. また, 提案手法により合成されたデータが, 既存手法と比べてメンバーシップ推定攻撃の被害を低減していることも確認した．これらの技術に加え，データを秘匿したまま範囲演算を行う手法も考案した．以上のように，基盤データ構造とデータ保護の両側面について取り組みが進んだことから，順調に進展していると評価した．
今後の研究の推進方策	今年度開発した基盤データ構造をさらに改良し，圧縮率とクエリ速度を両立する手法の開発を目指す．また，今年度はk-merカウントやbubble call等を対象としたクエリの効率化を試みたが，グラフ上のアラインメントなど，多様なクエリの効率化にも取り組む．データ保護に関しては，人工合成の精度を高める技術開発を行うのと同時に，染色体全体のように非常に長い配列に対しても配列を秘匿したまま検索することが可能な技術の開発に取り組む．

報告書

(1件)

2023 実施状況報告書

研究成果
(5件)

すべて 2024 2023

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件) (うち招待講演 1件)

[雑誌論文] Efficient Privacy Preserving Range Query Using Segment Tree2024
- 著者名/発表者名
  Shirotake Shusuke、Shimizu Kana
- 雑誌名
  
  Proceedings of 58th Annual Conference on Information Sciences and Systems (CISS)
  
  巻: - ページ: 1-6
- DOI
  10.1109/ciss59072.2024.10480202
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[学会発表] Function Secret Sharing を用いた秘匿全文検索2024
- 著者名/発表者名
  Function Secret Sharing を用いた秘匿全文検索
- 学会等名
  2024年暗号と情報セキュリティシンポジウム（SCIS2024)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 文法圧縮アルゴリズムを用いた colored de Bruijn graph の効率化2024
- 著者名/発表者名
  岩月悠真，清水佳奈
- 学会等名
  情報処理学会バイオ情報学研究会(BIO)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 勾配クリッピングを用いたプライバシ保護ヒトゲノム合成2024
- 著者名/発表者名
  橋本康平，清水佳奈
- 学会等名
  情報処理学会バイオ情報学研究会(BIO)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 生命情報を安全に活用するプライバシ保護データマイニング2023
- 著者名/発表者名
  清水佳奈
- 学会等名
  バイオメディカル・ファジィ・システム学会第36回年次大会
- 関連する報告書
  2023 実施状況報告書
- 招待講演

精密で安全な参照ゲノムの研究

研究代表者

清水 佳奈 早稲田大学, 理工学術院, 教授 (60367050)

6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Efficient Privacy Preserving Range Query Using Segment Tree2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Function Secret Sharing を用いた秘匿全文検索2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 文法圧縮アルゴリズムを用いた colored de Bruijn graph の効率化2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 勾配クリッピングを用いたプライバシ保護ヒトゲノム合成2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 生命情報を安全に活用するプライバシ保護データマイニング2023

著者名/発表者名

学会等名

関連する報告書

清水佳奈早稲田大学, 理工学術院, 教授 (60367050)