Project/Area Number |
21K12104
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
ZHANG Yaozhong 東京大学, 医科学研究所, 准教授 (60817138)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | methylation / nanopore / deep learning / nanopore methylation / k-mer model / representation learning / pre-training / メチル化 / 事前表現学習モデル / k-mer / 全ゲノム表現学習 / nanopore sequencing / ナノポアシーケンシング / 構造変異 / 深層学習 |
Outline of Research at the Start |
本研究では、ナノポアシーケンシングからがんゲノムやRNAウイルスの複雑なメチル化プロファイリングを正確に行うために、特定遺伝子型を考慮したディープニューラルネットワークによって高精度にメチル化を検出する情報解析技術を構築する。これまで独立して解析が行われていたゲノムアセンブリ、遺伝子変異同定、構造変異検出を統合し、アンサンブリングを行うことによって正確なメチル化プロファイリングを行うことのできる情報技術を提案する。
|
Outline of Final Research Achievements |
In this project, we developed both model-level and pipeline-level high-performance methylation callers for nanopore sequencing data. We developed methBERT using the encoder architecture of the transformer model. In addition to signal analysis, we investigated the learning of nucleotide representation in the BERT model through pre-training. We analyzed representations for signals and nucleotides and developed a novel methylation caller based on the alignment of reads at target positions. At the pipeline level, we built a haplotype-aware and structural-variant-informed methylation detection pipeline, which we tested on both normal and tumor cells. Besides developing high-performance methylation callers, we extended our findings to whole-genome-level nucleotide sequence representation and single-cell representations using contrastive learning with biological constraints.
|
Academic Significance and Societal Importance of the Research Achievements |
ゲノムシーケンシングのコストが安くなるにつれて、その利用も広がってきた。ゲノムシーケンシングデータをより迅速かつ高精度に解析することは、ヘルスケアや疾患診断において重要である。本研究では、ナノポアシーケンシングから高精度なメチル化プロファイリング解析技術を開発した。この技術により、メチル化を高速かつ高精度な検出することが可能になり、老化や疾患におけるエピジェネティックな変化を理解するために役割を果たすことが期待される。
|