研究課題/領域番号 |
21K12104
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
張 耀中 東京大学, 医科学研究所, 准教授 (60817138)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | nanopore methylation / k-mer model / representation learning / pre-training / メチル化 / 事前表現学習モデル / k-mer / 全ゲノム表現学習 / methylation / nanopore sequencing / deep learning / ナノポアシーケンシング / 構造変異 / 深層学習 |
研究開始時の研究の概要 |
本研究では、ナノポアシーケンシングからがんゲノムやRNAウイルスの複雑なメチル化プロファイリングを正確に行うために、特定遺伝子型を考慮したディープニューラルネットワークによって高精度にメチル化を検出する情報解析技術を構築する。これまで独立して解析が行われていたゲノムアセンブリ、遺伝子変異同定、構造変異検出を統合し、アンサンブリングを行うことによって正確なメチル化プロファイリングを行うことのできる情報技術を提案する。
|
研究実績の概要 |
本年度、最新のR10.4シーケンスデータに特化し、ハプロタイプおよびゲノム変異を考慮するメチル化予測パイプラインを構築した。このパイプラインは、細胞株(HG002、COLO829BL)および腫瘍細胞株(RKO、COLO829)での解析において検証された。特に、HG002のタンデムリピート領域におけるリードの特徴とメチル化予測の結果について詳細な検証を行った。この解析パイプラインは、シーケンシングプラットフォーム(MinION)と組み合わせて、より容易な現地展開のために、10Lサイズの小型自作PC上で実装した。 モデル開発において、塩基配列上でのBERTモデルを用いたプレトレーニングを通じて学習された重なるk-mer表現を網羅的に分析した。これらの学習された重なるk-mer表現を用いて、ナノポアシーケンスにおけるメチル化予測の可能性を示した。関連の研究成果はBioinformatics誌に発表された。さらに、k-merの信号モデルに焦点を当て、k-merの塩基配列と関連する信号との相関性を分析した。以前に開発したmethBERTモデルフレームワークを利用し、k-merの塩基と信号の表現をメチル化予測に利用した。この手法と新たなR10.4の学習データを用いて、methBERT2というメチル化予測のツールを開発した。 さらに、ディープラーニングモデルを使用した画像処理技術をゲノム解析およびナノポアシーケンシングへの応用について探索した。多様なゲノム情報を二次元の画像または画像のようなテンソルに変換し、ディープラーニング技術を用いてゲノム解析に応用した。全ゲノム配列の表現を学習するために、FCGR(Frequency Chaos Game Representation)画像形式を使用し、対照学習を通じて生物学的関係を導入することで、新しい表現の学習方法を開発した。この新しい手法については、Briefing in bioinformatics誌に発表された。シングルセルの応用に関する研究成果は、Scientific Reports誌に発表された。
|