Development of genome assembler for long-reads using de bruign graph algorithm
Project/Area Number |
23K23861
|
Project/Area Number (Other) |
22H02598 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 43050:Genome biology-related
|
Research Institution | Institute of Science Tokyo |
Principal Investigator |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2024: ¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥8,450,000 (Direct Cost: ¥6,500,000、Indirect Cost: ¥1,950,000)
Fiscal Year 2022: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
|
Keywords | ゲノムアセンブル / de bruijn グラフ / ゲノムアセンブラ / de bruijnグラフ |
Outline of Research at the Start |
申請者らが開発したPlatanus-alleeアセンブラを基盤とし、相同染色体の両アレル配列を個別にフェージングして構築し、対立アレルのペアと して対応関係を含め精度高く出力することを可能にする新規アセンブラの開発を実施する。 polish用途で用いられるIllumina pair-endデータよりde bruijnグラフを構築し、Longreadにてscaffoldingする機能を新規に構築することで 実現を目指す。その際にPlatanus-alleeが持つ、相同染色体の対応を「バブル構造」として保持可能なユニークなアルゴリズムを用いることで 、ヘテロ接合性の高いゲノムへの対応を図る。
|
Outline of Annual Research Achievements |
2年目の本年度は期初に立てた予定に基づき、以下の3点を主に実施した。 (1)Platanus-alleeアセンブラで実装されているアルゴリズムをもとに昨年度開発したde Bruijnグラフアルゴリズムに基づくcontigグラフおよびbranchグラフの構築アルゴリズムに対し、PacBio HiFiリードが適用できるよう改良を施した。HiFiデータはIlluminaデータに近い高い精度を持った、15-20kbのリードである。このデータに対して、de bruijnグラフアルゴリズムを適用する際にはkを大きく取ることが可能となるが、kを大きく取るとメモリ使用量が膨大になる問題が生じる。この問題に対処するためbloom filterを適用することによりメモリ削減を実現した。 (2)昨年度開発したLongread、Hi-Cデータを用いたcontig, branchグラフのscaffolding, phasing機能の改良を実施した。(1)の開発状況が芳しくないこともあり、期初の方針を少し変更し、(2)のscaffolding, phasing機能部分のみをまずツールとして完成させ、GreenHillという形で公開するとともに論文化を実施した。この際には、(1)で構築したcontig以外にも他アセンブラでshort-read, long-read問わずに構築されたcontigを入力とし、染色体スケールのphasing, scaffoldingツールとしての開発を実施した。 (3) 昨年度に続き、上記機能開発におけるベンチマークのための実シークエンスデータの取得を実施した。ゲノムサイズ、ヘテロ接合性を考慮し、複数種PacBio(HiFi)、Illumina PE, Hi-Cデータの取得を実施し、ベンチマーク・論文用データとして活用した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要にも挙げたが、本研究開発は大別してde bruijnグラフを用いた精度の高いcontigグラフ構築機能とcontig/branchグラフを入力としたphasing, scaffolding機能からなる。後者に関しては、昨年度から本年度にかけての開発により、他の同様な機能をもつプログラムと比べても良好な結果が得られることから、この部分のみを先行的にGreenHillとして論文化した。また、これらのプログラムを活用した成果も数本の論文にまとめることができ、申請時よりも前倒しで研究が進行していると考えられる。 しかしながら前者の部分に関しては、必要となる機能の開発は一通りできたものの、HiFiリードのエラー率が想定していたよりも高く、これが原因となりkを大きく取るとエラーを含まないk-merの頻度が低くなってしまい、エラーとの区別をk-mer頻度差で行う戦略が取れないため、エラー由来のエッジが多く残ってしまう問題が起きている。この問題の解決に最終年度臨むが、非常に困難が予測されることから、全体的な進捗は予定通りと判断した。
|
Strategy for Future Research Activity |
最終年度である来年度には、HiFiリードおよびHiCリードを入力とし、de bruijnグラフを用いた精度の高いcontigグラフ構築に引き続きcontig/branchグラフを入力としたphasing, scaffoldingを実施することで、染色体スケールのphasingしたゲノム構築が可能なアセンブラを完成させることを目指す。 後半部分はすでにある程度精度、連続性の高い結果を得ることに成功しており、すでにこの部分だけで論文化にも成功している。一方前半部は、必要となる機能の開発は一通りできたものの、HiFiリードのエラー率が想定していたよりも高く、これが原因となりkを大きく取るとエラーを含まないk-merの頻度が低くなってしまい、エラーとの区別をk-mer頻度差で行う戦略が取れないため、エラー由来のエッジが多く残ってしまう問題が起きている。 この問題への対応に来年度は注力する予定である。具体的には、HiFiリードのエラー修正機能とエラー由来エッジの枝刈り機能の開発を試みる予定である。前者に関しては、HiFiリード中のk-merの頻度情報に加えて、カバレッジの高いHiCリードの活用も検討する。これら機能の活用により、kのサイズを大きくしたde bruijnグラフ構築を可能とし、枝分かれのない連続性の高いContig構築を目指し、最終的に、このContigを入力とすることで染色体レベルのphasingされたゲノム構築の実現をはかる。 各種生物のデータによるベンチマークテストを行い、機能の改善を図り最終的にアセンブラとしての公開、論文化を目指す予定である。
|
Report
(2 results)
Research Products
(4 results)