本年度、最新のR10.4シーケンスデータに特化し、ハプロタイプおよびゲノム変異を考慮するメチル化予測パイプラインを構築した。このパイプラインは、細胞株(HG002、COLO829BL)および腫瘍細胞株(RKO、COLO829)での解析において検証された。特に、HG002のタンデムリピート領域におけるリードの特徴とメチル化予測の結果について詳細な検証を行った。この解析パイプラインは、シーケンシングプラットフォーム(MinION)と組み合わせて、より容易な現地展開のために、10Lサイズの小型自作PC上で実装した。 モデル開発において、塩基配列上でのBERTモデルを用いたプレトレーニングを通じて学習された重なるk-mer表現を網羅的に分析した。これらの学習された重なるk-mer表現を用いて、ナノポアシーケンスにおけるメチル化予測の可能性を示した。関連の研究成果はBioinformatics誌に発表された。さらに、k-merの信号モデルに焦点を当て、k-merの塩基配列と関連する信号との相関性を分析した。以前に開発したmethBERTモデルフレームワークを利用し、k-merの塩基と信号の表現をメチル化予測に利用した。この手法と新たなR10.4の学習データを用いて、methBERT2というメチル化予測のツールを開発した。 さらに、ディープラーニングモデルを使用した画像処理技術をゲノム解析およびナノポアシーケンシングへの応用について探索した。多様なゲノム情報を二次元の画像または画像のようなテンソルに変換し、ディープラーニング技術を用いてゲノム解析に応用した。全ゲノム配列の表現を学習するために、FCGR(Frequency Chaos Game Representation)画像形式を使用し、対照学習を通じて生物学的関係を導入することで、新しい表現の学習方法を開発した。この新しい手法については、Briefing in bioinformatics誌に発表された。シングルセルの応用に関する研究成果は、Scientific Reports誌に発表された。
|