研究課題
細菌や真核微生物のエピゲノム研究では、様々な種類のDNAメチル化(5mC、6mA、4mC)を検出可能なPacBioシーケンサーが、Illuminaシーケンサーよりも広く使用されている。そこで本研究では、PacBioメチル化データを解析するためのバイオインフォマティクス手法の開発を目的とした。PacBioシーケンサーは、配列決定の際に塩基の取り込みにかかった時間であるinter pulse duration (IPD)を測定する。PacBio社の提供するメチル化データ解析ツールkineticstoolsでは、このIPDを各種の機械学習モデルと組み合わせることで、メチル化の検出やメチル化率の推定などの様々なタスクを行っている。本研究では、これらのうちpositive control modelと呼ばれる機械学習モデルの改良を行った。positive control modelは、あるゲノム位置がメチル化された場合のIPDの期待値を周辺の配列情報から予測する機械学習モデルであり、メチル化率の推定に利用される。オリジナルのpositive control modelが少数の生物種や配列モチーフからなる限られた教師データによって学習されている点に着目して、NCTC3000やREBASEなどの大規模データベースを利用した教師データの拡充を行った。その結果、オリジナルのpositive control modelと比較して高い予測精度を達成することに成功した。また、メチル化率の推定のための機械学習モデルとして、畳み込みニューラルネットワークにもとづく新しい手法を開発した。今後は、これらの機械学習モデルを利用して、メチル化変化領域の検出などの他のタスクにも適用可能な手法を開発していく予定である。
すべて 2021
すべて 雑誌論文 (6件) (うち国際共著 1件、 査読あり 6件、 オープンアクセス 2件) 学会発表 (19件) (うち国際学会 6件)
ACS Catalysis
巻: 11 ページ: 14615~14624
10.1021/acscatal.1c03753
npj Systems Biology and Applications
巻: 7 ページ: -
10.1038/s41540-021-00190-w
Briefings in Bioinformatics
巻: 22 ページ: -
10.1093/bib/bbab234
Genomics
巻: 113 ページ: 2675~2682
10.1016/j.ygeno.2021.05.037
Scientific Reports
巻: 11 ページ: -
10.1038/s41598-021-86952-2
Seibutsu Butsuri
巻: 61 ページ: 177~179
10.2142/biophys.61.177