2022 年度実績報告書

de bruijnグラフを用いたロングリード用ゲノムアセンブラの開発

研究課題

研究課題/領域番号	22H02598
配分区分	補助金
研究機関	東京工業大学
研究代表者	伊藤武彦東京工業大学, 生命理工学院, 教授 (90501106)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	ゲノムアセンブル / de bruijnグラフ
研究実績の概要	本年度は期初に立てた予定に従い、以下の３点を主に実施した。 (1) まず、本研究課題の鍵となる精度の高いリードデータを入力とする、de bruijnグラフアルゴリズムを用いたcontigグラフおよびバブル構造の接合点となるbranchグラフの構築アルゴリズ開発を実施した。この機能は、すでにPlatanus-alleeアセンブラで実装されているアルゴリズムをもとに、今後HiFiリードを入力とできるようにサイズの大きなk-merに対応できるよう、内部構造を全面的に作り替えることで実現した。 (2) Longread、Hi-Cデータを用いたcontig, branchグラフのscaffolding, phasing機能の開発を実施した。(1)で得られたグラフに対し、Longread,Hi-Cデータをマッピング、アライメントを行い、そのスコアを用いてcontig, branchグラフの架橋を構築する。この機能自体はPlatanus-alleeにも存在したが、Platanus-alleeではIllumina PE, MPをメインに取り扱っていたためLongreadはあくまでも補助的な位置付けであった。そこでエラー率の比較的高いLongreadを用いて精度高くscaffoldingするためのベンチマークテストなどを多くのケースで実施し、精度向上や今まで無視されてきたrepeat配列を介したグラフ構造の解決アルゴリズムなどの組み込みを実施した。同時にphasing機能の実装も開始した。 (3) 上記機能開発におけるベンチマークのための実シークエンスデータの取得を実施した。ゲノムサイズ、ヘテロ接合性、Hi-Cデータの取得しやすさなどを考慮し、魚、植物サンプルを中心にPacBio(CLR, HiFi)、Illumina PE, Hi-Cデータの取得を実施し、ベンチマークに活用した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由期初に計画した機能の構築は予定通りに進んでいると考えられる。しかし、ゲノムアセンブル方法を取り巻く環境は、非常に早いペースで変化しており、各種新規手法が発表されている。特にHiFi+Hi-Cによりphasingまでを行うゲノム構築が主流となりつつあるため、世の中の技術にキャッチアップし、それを超えるものの開発に今以上にスピード感を持って取り組む必要性が大きいと感じている。
今後の研究の推進方策	上記進捗状況でも述べたように、20223年度は期初に予定していたスケジュールでの開発は進められている。一方、世界的な技術進展が予想よりも遥かに早いため、本研究の遂行も予定を前倒しで進めていく必要があると思われる。一部開発途中段階のアセンブラであっても、一旦暫定版として、論文化・公開を図ることも視野に入れる予定である。特に期初には導入をあまり考えていなかった、染色体の両アレルを別々に構築するphasing解析が広く一般的に行われるようになってきていることからHiCデータを有効に活用することで、精度高くphasingしつつscaffoldingしていくアセンブラを目指していきたい。昨年度に他機関で発表されたアセンブラでは、長く繋がるものの対立アレル由来の配列が余分に出力されるなど下流解析のことを考えると、出力結果をそのまま使用することは難しい場合が多い。このような問題にフォーカスすることで、過不足なく配列を出力し、たとえば下流の拡大・縮小遺伝子ファミリー解析などが精度高く行えるようなアセンブラを開発することで優位性をアピールできると思われる。