研究実績の概要 |
2年目の本年度は期初に立てた予定に基づき、以下の3点を主に実施した。 (1)Platanus-alleeアセンブラで実装されているアルゴリズムをもとに昨年度開発したde Bruijnグラフアルゴリズムに基づくcontigグラフおよびbranchグラフの構築アルゴリズムに対し、PacBio HiFiリードが適用できるよう改良を施した。HiFiデータはIlluminaデータに近い高い精度を持った、15-20kbのリードである。このデータに対して、de bruijnグラフアルゴリズムを適用する際にはkを大きく取ることが可能となるが、kを大きく取るとメモリ使用量が膨大になる問題が生じる。この問題に対処するためbloom filterを適用することによりメモリ削減を実現した。 (2)昨年度開発したLongread、Hi-Cデータを用いたcontig, branchグラフのscaffolding, phasing機能の改良を実施した。(1)の開発状況が芳しくないこともあり、期初の方針を少し変更し、(2)のscaffolding, phasing機能部分のみをまずツールとして完成させ、GreenHillという形で公開するとともに論文化を実施した。この際には、(1)で構築したcontig以外にも他アセンブラでshort-read, long-read問わずに構築されたcontigを入力とし、染色体スケールのphasing, scaffoldingツールとしての開発を実施した。 (3) 昨年度に続き、上記機能開発におけるベンチマークのための実シークエンスデータの取得を実施した。ゲノムサイズ、ヘテロ接合性を考慮し、複数種PacBio(HiFi)、Illumina PE, Hi-Cデータの取得を実施し、ベンチマーク・論文用データとして活用した。
|