Development of multi omics data analysis method using short/long read integration and complete human reference sequences
Project/Area Number |
23K11300
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
片山 琴絵 東京大学, 医科学研究所, 准教授 (40581195)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | バイオインフォマティクス / 長鎖リード / 短鎖リード |
Outline of Research at the Start |
これまでの腫瘍ゲノム解析では、短鎖リードを中心としリファレンスファイルをGRCh37またはGRCh38を用いて知見を積み上げてきた。しかし長大な繰り返し配列を含む領域に関しては、リード長が短い場合に解析が困難であった。 本研究は、がんゲノム分野においての短鎖リードと長鎖リードを統合解析するデータ解析技術を開発することで、これまで未解読であった領域の変異同定、長鎖リードの優位性を活かしたハプロタイプ分離によってがん生物学の理解を深化させることを目的とする。
|
Outline of Annual Research Achievements |
これまでの腫瘍ゲノム解析では、多くのがん患者からのゲノム情報を解析することで、さまざまながん種でのドライバー変異など腫瘍を理解するための知見が蓄積されてきた。一方、セグメント重複、セントロメア、テロメアといった長大な繰り返し配列を含む領域に関しては、2022年にヒトゲノムの完全配列の発表を起として生殖細胞系列を中心とした解析が始まったばかりである。本研究では同一がん検体からの長鎖リードと短鎖リードデータを詳細に比較し、T2T-CHM13配列をリファレンスとすることで短鎖リードでは同定不可能な変異、長鎖リードの深度に応じて特定可能な腫瘍内不均一性の検出限界などデータの統合解析をデザインするために必須の基礎データを得ている。がんゲノムにおける長鎖シークエンスの一般的な読み取り深度は腫瘍部位で30X程度、正常部位で10X程度に留まり、また十分に腫瘍内不均一性など腫瘍における重要な特性を解析するにはいまだに多くの課題が残されているが、現状への足がかりとなるものである。短鎖リードを用いた解析においてリファレンスをGRCh38からT2T-CHM13配列に置き換えるだけでは短鎖リードのリード長(300bp程度)よりも長い繰り返し配列には、複数箇所にマッピングされることにより解析不能となり、これはT2T-CHM13配列をリファレンスとした場合にも起きる。この問題の解決のため、長鎖リードを用いこれらのマッピング困難な配列箇所をT2T-CHM13配列とGRCh38配列の差分から定め「非常に長い繰り返し配列」を内包するリード長をを用いることにより、短鎖リードで未決であった領域を長鎖リードにより補完するための評価と基本的手法の開発を公共データベースに登録のあるデータにより行なった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
長鎖リードを用いこれらのマッピング困難な配列箇所をT2T-CHM13配列とGRCh38配列の差分から定め「非常に長い繰り返し配列」を内包するリード長をを用いることにより、短鎖リードで未決であった領域を長鎖リードにより補完するための評価と基本的手法の開発を行なった。この開発は公共データベースに長鎖・短鎖リードの両方の登録があるデータにより行なった。米国がんゲノムアトラス(TCGA)や国際がんゲノムコンソーシアム (ICGC) のデータとGIBに登録のあるデータを用いた。腫瘍学分野において、変異検出やコピー数変化は腫瘍部位と正常部位の両データが必須であるが、特に長鎖リードについては伝統的に構造変異に着目し、腫瘍部のみをシークエンスすることがほとんどであり、正常部位のデータを取得することが少なく、これは公共データベースへの登録についても同様である。これらを基礎データとして評価とモデル構築を行い、また独自に保持する細胞株のデータでモデルの妥当性評価を行なった。当初予定していた実データでの腫瘍・正常両部位揃ってシークエンスした長鎖リードのデータは、出検の遅れからシークエンスデータを入手することが困難となり、このため、実データでの基礎データ評価と現在構築しているモデル評価について実行できなかった。ハプロタイプの評価については現在の主流である長鎖リードの典型例である正常部位10Xはリード数が足りずに評価不能となる例もあり、短鎖リードで補完を行える領域であれば見通しが立つが、繰り返し配列部位を補完することが困難である場合が多いことが判明した。これについては長鎖リードの深度の多いサンプルを用いてダウンサンプリングを行うことにより、性能限界の評価を行なっている最中である。
|
Strategy for Future Research Activity |
現状では長鎖リードでの変異同定は生殖細胞系列を前提とした既存の変異同定ツールであるDeepVariantなどを流用するに留まり、正常と腫瘍のペアデータを前提とし、長鎖リードの優位性を活用した解析方法は存在しない。30Xの読み取り深度と腫瘍内不均一性を制約条件とした場合に、短鎖リードで検出された変異検出感度との比較、およびハプロタイプフェージングによるリード情報の活用可能性、および短鎖リードでこれまで検出できなかった長大な繰り返し配列での変異同定とその評価を行う。本年においてはこれまで検体収集状況に遅れがあった実データについても、データが到着しつつあるため、これまで用いてきた公共データベースからのデータと併せて、モデル構築と評価に繋げることができる。長鎖リードシークエンスデータと短鎖リードシーケンシングデータを用いて、ヒトゲノム完全配列(T2T-CHM13)を参照配列としてにマッピングを行う。長鎖リードシークエンスデータから構造変異を同定し、短鎖リードシーケンシングデータから1塩基変異多型およびコピー数変化を同定する。この際、短鎖リードのリード長を超えた長大な繰り返し配列における変異情報は長鎖リードから得られたハプロタイプ分離の上での遺伝子変異とコピー数変化を事前分布と置き、リード長を超えた繰り返し部分に対する変異情報を推定し補完を行う予定である。また、長鎖リードから得られたハプロタイプの情報を手がかりとして、短鎖リードの評価困難領域についてde novo assemblyが可能であるかどうかの評価を行う。長鎖リードの特に正常部位では深度が十分といえない状況で、これを短鎖リードで補完可能であるかの検討し評価を行う予定である。
|
Report
(1 results)
Research Products
(3 results)