2022 Fiscal Year Annual Research Report
de bruijnグラフを用いたロングリード用ゲノムアセンブラの開発
Project/Area Number |
22H02598
|
Allocation Type | Single-year Grants |
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | ゲノムアセンブル / de bruijnグラフ |
Outline of Annual Research Achievements |
本年度は期初に立てた予定に従い、以下の3点を主に実施した。 (1) まず、本研究課題の鍵となる精度の高いリードデータを入力とする、de bruijnグラフアルゴリズムを用いたcontigグラフおよびバブル構造の接合点となるbranchグラフの構築アルゴリズ開発を実施した。この機能は、すでにPlatanus-alleeアセンブラで実装されているアルゴリズムをもとに、今後HiFiリードを入力とできるようにサイズの大きなk-merに対応できるよう、内部構造を全面的に作り替えることで実現した。 (2) Longread、Hi-Cデータを用いたcontig, branchグラフのscaffolding, phasing機能の開発を実施した。(1)で得られたグラフに対し、Longread,Hi-Cデータをマッピング、アライメントを行い、そのスコアを用いてcontig, branchグラフの架橋を構築する。この機能自体はPlatanus-alleeにも存在したが、Platanus-alleeではIllumina PE, MPをメインに取り扱っていたためLongreadはあくまでも補助的な位置付けであった。そこでエラー率の比較的高いLongreadを用いて精度高くscaffoldingするためのベンチマークテストなどを多くのケースで実施し、精度向上や今まで無視されてきたrepeat配列を介したグラフ構造の解決アルゴリズムなどの組み込みを実施した。同時にphasing機能の実装も開始した。 (3) 上記機能開発におけるベンチマークのための実シークエンスデータの取得を実施した。ゲノムサイズ、ヘテロ接合性、Hi-Cデータの取得しやすさなどを考慮し、魚、植物サンプルを中心にPacBio(CLR, HiFi)、Illumina PE, Hi-Cデータの取得を実施し、ベンチマークに活用した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
期初に計画した機能の構築は予定通りに進んでいると考えられる。しかし、ゲノムアセンブル方法を取り巻く環境は、非常に早いペースで変化しており、各種新規手法が発表されている。特にHiFi+Hi-Cによりphasingまでを行うゲノム構築が主流となりつつあるため、世の中の技術にキャッチアップし、それを超えるものの開発に今以上にスピード感を持って取り組む必要性が大きいと感じている。
|
Strategy for Future Research Activity |
上記進捗状況でも述べたように、20223年度は期初に予定していたスケジュールでの開発は進められている。一方、世界的な技術進展が予想よりも遥かに早いため、本研究の遂行も予定を前倒しで進めていく必要があると思われる。一部開発途中段階のアセンブラであっても、一旦暫定版として、論文化・公開を図ることも視野に入れる予定である。 特に期初には導入をあまり考えていなかった、染色体の両アレルを別々に構築するphasing解析が広く一般的に行われるようになってきていることからHiCデータを有効に活用することで、精度高くphasingしつつscaffoldingしていくアセンブラを目指していきたい。 昨年度に他機関で発表されたアセンブラでは、長く繋がるものの対立アレル由来の配列が余分に出力されるなど下流解析のことを考えると、出力結果をそのまま使用することは難しい場合が多い。このような問題にフォーカスすることで、過不足なく配列を出力し、たとえば下流の拡大・縮小遺伝子ファミリー解析などが精度高く行えるようなアセンブラを開発することで優位性をアピールできると思われる。
|