2021 Fiscal Year Annual Research Report
微生物エピゲノム変化の解明に向けたPacBioメチル化データ解析技術の開発
Project/Area Number |
19K20409
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
齋藤 裕 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (60721496)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | エピゲノム / DNAメチル化 / PacBio / バイオインフォマティクス / 機械学習 |
Outline of Annual Research Achievements |
細菌や真核微生物のエピゲノム研究では、様々な種類のDNAメチル化(5mC、6mA、4mC)を検出可能なPacBioシーケンサーが、Illuminaシーケンサーよりも広く使用されている。そこで本研究では、PacBioメチル化データを解析するためのバイオインフォマティクス手法の開発を目的とした。PacBioシーケンサーは、配列決定の際に塩基の取り込みにかかった時間であるinter pulse duration (IPD)を測定する。PacBio社の提供するメチル化データ解析ツールkineticstoolsでは、このIPDを各種の機械学習モデルと組み合わせることで、メチル化の検出やメチル化率の推定などの様々なタスクを行っている。本研究では、これらのうちpositive control modelと呼ばれる機械学習モデルの改良を行った。positive control modelは、あるゲノム位置がメチル化された場合のIPDの期待値を周辺の配列情報から予測する機械学習モデルであり、メチル化率の推定に利用される。オリジナルのpositive control modelが少数の生物種や配列モチーフからなる限られた教師データによって学習されている点に着目して、NCTC3000やREBASEなどの大規模データベースを利用した教師データの拡充を行った。その結果、オリジナルのpositive control modelと比較して高い予測精度を達成することに成功した。また、メチル化率の推定のための機械学習モデルとして、畳み込みニューラルネットワークにもとづく新しい手法を開発した。今後は、これらの機械学習モデルを利用して、メチル化変化領域の検出などの他のタスクにも適用可能な手法を開発していく予定である。
|
Research Products
(25 results)