• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Development of efficient and secure data structure for reference genome

Research Project

Project/Area Number 23K18515
Research Category

Grant-in-Aid for Challenging Research (Exploratory)

Allocation TypeMulti-year Fund
Review Section Medium-sized Section 62:Applied informatics and related fields
Research InstitutionWaseda University

Principal Investigator

清水 佳奈  早稲田大学, 理工学術院, 教授 (60367050)

Project Period (FY) 2023-06-30 – 2026-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2025: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2024: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Fiscal Year 2023: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Keywords参照ゲノム配列 / color de Bruijn graph / ヒトゲノム / プライバシ保護 / データ合成 / 参照ゲノム / 個人ゲノム / 秘密計算 / アルゴリズム
Outline of Research at the Start

新たに計測されたゲノム配列は,それ自身では有用な情報とはなりえず,「参照ゲノム」と呼ばれる既知の代表配列と比較することによって様々な知見を得ることができる.しかし,現在用いられているヒトの参照ゲノムは,単純な配列情報にとどまり,日進月歩で蓄積の進む膨大な個人ゲノム配列に含まれる多様な情報を含んでいないため,新たに決定したゲノム配列の分析精度が低下してしまう問題がある.そこで本研究では,過去に読み取られたヒトゲノム配列資源を余すことなく活用可能な新しい参照ゲノムの構築法を研究する.ヒトゲノム配列の多様性を十分に表現する精密性を保ちながらも,簡潔で,かつ,プライバシ保護が可能な方法を研究する.

Outline of Annual Research Achievements

Society5.0時代の生命科学では,リアルタイムで計測される膨大なヒトゲノム配列を瞬時に共有して医学や医療に資する様々な知見を見出し,創薬や医療の高度化に役立てることが望まれている.新たに計測されたゲノム配列は,それ自身では有用な情報とはなりえず,過去に計測されたゲノム配列との比較により様々な知見を得ることができる.過去に計測されたゲノム配列は参照ゲノムとして様々な情報解析の基盤として用いられるが,近年,数多くの個人ゲノム配列が取得されるようになったことから,膨大な個人ゲノム配列に含まれる多様な情報を含む参照ゲノムの構築が必要とされている.そこで本研究では,過去に読み取られたヒトゲノム配列資源を余すことなく活用可能な参照ゲノムの構築法を研究する.ヒトゲノム配列の多様性を十分に表現可能な精密性を持ち,かつ,大規模な情報を効率よく圧縮表現する方法の開発を目指すのと同時に,個人ゲノム情報の漏えいの心配のない安全な構築法を開発する必要がある.このような目的のもと,今年度は基盤データ構造の効率化とデータの保護法の開発に取り組み,基盤データ構造の効率化については多数の個人ゲノム配列をグラフ上の表現するcolor de Bruijn graphについて研究を進め,データ圧縮とクエリ速度の良いトレードオフを実現する方法を開発した.また,データ保護については,ヒトゲノムの実データの特徴を良く模し,かつ,情報漏洩の少ない人工データを生成する方法について研究を進めた他,データを保護したまま検索を行う方法も研究した.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

本年度は,基盤データ構造の効率化とデータの保護法の開発に取り組んだ.基盤データ構造の効率化効率化については,文法圧縮のアルゴリズムやハミング距離近傍探索による差分表現を用いて,color matrix の疎かつ行ベクトルが類似しやすい性質を生かした圧縮を行った.その結果,提案手法は既存手法と比較してデータ構造のサイズ削減とクエリ応答の高速化のより良いトレードオフを実現した.データの保護に関しては,ヒトゲノム配列の人工データを合成する技術を開発した.人工データは, 実データの代替えとなりうる程度に実データの特徴を有する一方で, 必要以上に元データの情報を漏らさないように合成される必要があるが,本研究では, 個別データに対する勾配クリッピングや差分プライバシを用いることにより, 従来手法と比較して情報漏洩を抑制する手法を提案した.1000 ゲノムプロジェクトのデータセットを用いた実験では, アレル頻度や連鎖不均衡等の解析により, 人工合成したデータが学習データの特徴をよく捉えていることを示された. また, 提案手法により合成されたデータが, 既存手法と比べてメンバーシップ推定攻撃の被害を低減していることも確認した.これらの技術に加え,データを秘匿したまま範囲演算を行う手法も考案した.以上のように,基盤データ構造とデータ保護の両側面について取り組みが進んだことから,順調に進展していると評価した.

Strategy for Future Research Activity

今年度開発した基盤データ構造をさらに改良し,圧縮率とクエリ速度を両立する手法の開発を目指す.また,今年度はk-merカウントやbubble call等を対象としたクエリの効率化を試みたが,グラフ上のアラインメントなど,多様なクエリの効率化にも取り組む.データ保護に関しては,人工合成の精度を高める技術開発を行うのと同時に,染色体全体のように非常に長い配列に対しても配列を秘匿したまま検索することが可能な技術の開発に取り組む.

Report

(1 results)
  • 2023 Research-status Report
  • Research Products

    (5 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (4 results) (of which Invited: 1 results)

  • [Journal Article] Efficient Privacy Preserving Range Query Using Segment Tree2024

    • Author(s)
      Shirotake Shusuke、Shimizu Kana
    • Journal Title

      Proceedings of 58th Annual Conference on Information Sciences and Systems (CISS)

      Volume: - Pages: 1-6

    • DOI

      10.1109/ciss59072.2024.10480202

    • Related Report
      2023 Research-status Report
    • Peer Reviewed
  • [Presentation] Function Secret Sharing を用いた秘匿全文検索2024

    • Author(s)
      Function Secret Sharing を用いた秘匿全文検索
    • Organizer
      2024年 暗号と情報セキュリティシンポジウム(SCIS2024)
    • Related Report
      2023 Research-status Report
  • [Presentation] 文法圧縮アルゴリズムを用いた colored de Bruijn graph の効率化2024

    • Author(s)
      岩月悠真, 清水佳奈
    • Organizer
      情報処理学会バイオ情報学研究会(BIO)
    • Related Report
      2023 Research-status Report
  • [Presentation] 勾配クリッピングを用いたプライバシ保護ヒトゲノム合成2024

    • Author(s)
      橋本康平, 清水佳奈
    • Organizer
      情報処理学会バイオ情報学研究会(BIO)
    • Related Report
      2023 Research-status Report
  • [Presentation] 生命情報を安全に活用するプライバシ保護データマイニング2023

    • Author(s)
      清水佳奈
    • Organizer
      バイオメディカル・ファジィ・システム学会第36回年次大会
    • Related Report
      2023 Research-status Report
    • Invited

URL: 

Published: 2023-07-04   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi