ナノポアシーケンスデータでの高性能メチル化検出手法をモデルレベルとパイプラインレベルの両方で開発した。モデルレベルでは、Transformerモデルのencoderアーキテクチャを使ってmethBERTを開発した。BERTモデルで塩基配列の表現学習を検証した。同じゲノムlociにアライメントされたリードを統合利用することで新しいメチル化コーラーを開発した。パイプラインレベルでは、ハプロタイプおよびゲノム変異を考慮したメチル化予測パイプラインを構築した。このパイプラインは、正常および腫瘍細胞株を用いて検証された。その上、対照学習を通じて生物学的関係を導入することで、新しい表現学習方法を開発した。
|