研究実績の概要 |
本年度は期初に立てた予定に従い、以下の3点を主に実施した。 (1) まず、本研究課題の鍵となる精度の高いリードデータを入力とする、de bruijnグラフアルゴリズムを用いたcontigグラフおよびバブル構造の接合点となるbranchグラフの構築アルゴリズ開発を実施した。この機能は、すでにPlatanus-alleeアセンブラで実装されているアルゴリズムをもとに、今後HiFiリードを入力とできるようにサイズの大きなk-merに対応できるよう、内部構造を全面的に作り替えることで実現した。 (2) Longread、Hi-Cデータを用いたcontig, branchグラフのscaffolding, phasing機能の開発を実施した。(1)で得られたグラフに対し、Longread,Hi-Cデータをマッピング、アライメントを行い、そのスコアを用いてcontig, branchグラフの架橋を構築する。この機能自体はPlatanus-alleeにも存在したが、Platanus-alleeではIllumina PE, MPをメインに取り扱っていたためLongreadはあくまでも補助的な位置付けであった。そこでエラー率の比較的高いLongreadを用いて精度高くscaffoldingするためのベンチマークテストなどを多くのケースで実施し、精度向上や今まで無視されてきたrepeat配列を介したグラフ構造の解決アルゴリズムなどの組み込みを実施した。同時にphasing機能の実装も開始した。 (3) 上記機能開発におけるベンチマークのための実シークエンスデータの取得を実施した。ゲノムサイズ、ヘテロ接合性、Hi-Cデータの取得しやすさなどを考慮し、魚、植物サンプルを中心にPacBio(CLR, HiFi)、Illumina PE, Hi-Cデータの取得を実施し、ベンチマークに活用した。
|