研究課題/領域番号 |
21K12104
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
張 耀中 東京大学, 医科学研究所, 特任准教授 (60817138)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | メチル化 / 事前表現学習モデル / k-mer / 全ゲノム表現学習 / methylation / nanopore sequencing / deep learning / ナノポアシーケンシング / 構造変異 / 深層学習 |
研究開始時の研究の概要 |
本研究では、ナノポアシーケンシングからがんゲノムやRNAウイルスの複雑なメチル化プロファイリングを正確に行うために、特定遺伝子型を考慮したディープニューラルネットワークによって高精度にメチル化を検出する情報解析技術を構築する。これまで独立して解析が行われていたゲノムアセンブリ、遺伝子変異同定、構造変異検出を統合し、アンサンブリングを行うことによって正確なメチル化プロファイリングを行うことのできる情報技術を提案する。
|
研究実績の概要 |
今年度の研究は、二つに分けて進めた。1つ目は、snakemakeを使用し、特定遺伝子型を考慮しながらメチル化の同時検出が可能な自動化パイプラインを構築した。2つ目は、新しいメチル化検出手法を開発するため、塩基配列における事前表現学習モデルの研究を進めた。まず、異なる生物種の塩基データが事前表現学習モデルの影響に関して、昨年のプレプリントを改訂してBioinformatics誌に投稿し、採用された。そして、事前表現学習モデルが塩基配列で学習したものを明らかにするため、embedding層のk-mer表現を解釈し、文脈整合的k-mer表現を学習したことを検証した。伝統的なk-mer表現手法と比較し、国際会議Research in Computational Molecular Biology(RECOMB)でポスター発表を行なった。さらに、既存の事前表現学習モデルが塩基配列長さの制限に対して、全ゲノム表現学習のためにContrastive Learningを用いた新しい手法を開発した。この研究成果は現在査読中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
自動化パイプラインを構築した上で、塩基配列における事前表現学習モデルの効果的な部分を解明し、新しいメチル化検出手法を開発できるようになったため。
|
今後の研究の推進方策 |
今後、事前表現学習モデルの成果をメチル化検出方法に応用し、構築した自動化パイプラインに統合を行う。さらに、最新のduplex sequencingデータにも開発したパイプラインで評価する予定である。
|