de bruijnグラフを用いたロングリード用ゲノムアセンブラの開発

研究課題

研究課題/領域番号	23K23861
補助金の研究課題番号	22H02598 (2022-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2022-2023)
応募区分	一般
審査区分	小区分43050:ゲノム生物学関連
研究機関	東京工業大学
研究代表者	伊藤武彦東京工業大学, 生命理工学院, 教授 (90501106)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円) 2024年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円) 2022年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
キーワード	ゲノムアセンブル / de bruijn グラフ / ゲノムアセンブラ / de bruijnグラフ
研究開始時の研究の概要	申請者らが開発したPlatanus-alleeアセンブラを基盤とし、相同染色体の両アレル配列を個別にフェージングして構築し、対立アレルのペアとして対応関係を含め精度高く出力することを可能にする新規アセンブラの開発を実施する。 polish用途で用いられるIllumina pair-endデータよりde bruijnグラフを構築し、Longreadにてscaffoldingする機能を新規に構築することで実現を目指す。その際にPlatanus-alleeが持つ、相同染色体の対応を「バブル構造」として保持可能なユニークなアルゴリズムを用いることで、ヘテロ接合性の高いゲノムへの対応を図る。
研究実績の概要	2年目の本年度は期初に立てた予定に基づき、以下の3点を主に実施した。 (1)Platanus-alleeアセンブラで実装されているアルゴリズムをもとに昨年度開発したde Bruijnグラフアルゴリズムに基づくcontigグラフおよびbranchグラフの構築アルゴリズムに対し、PacBio HiFiリードが適用できるよう改良を施した。HiFiデータはIlluminaデータに近い高い精度を持った、15-20kbのリードである。このデータに対して、de bruijnグラフアルゴリズムを適用する際にはkを大きく取ることが可能となるが、kを大きく取るとメモリ使用量が膨大になる問題が生じる。この問題に対処するためbloom filterを適用することによりメモリ削減を実現した。 (2)昨年度開発したLongread、Hi-Cデータを用いたcontig, branchグラフのscaffolding, phasing機能の改良を実施した。(1)の開発状況が芳しくないこともあり、期初の方針を少し変更し、(2)のscaffolding, phasing機能部分のみをまずツールとして完成させ、GreenHillという形で公開するとともに論文化を実施した。この際には、(1)で構築したcontig以外にも他アセンブラでshort-read, long-read問わずに構築されたcontigを入力とし、染色体スケールのphasing, scaffoldingツールとしての開発を実施した。 (3) 昨年度に続き、上記機能開発におけるベンチマークのための実シークエンスデータの取得を実施した。ゲノムサイズ、ヘテロ接合性を考慮し、複数種PacBio(HiFi)、Illumina PE, Hi-Cデータの取得を実施し、ベンチマーク・論文用データとして活用した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究実績の概要にも挙げたが、本研究開発は大別してde bruijnグラフを用いた精度の高いcontigグラフ構築機能とcontig/branchグラフを入力としたphasing, scaffolding機能からなる。後者に関しては、昨年度から本年度にかけての開発により、他の同様な機能をもつプログラムと比べても良好な結果が得られることから、この部分のみを先行的にGreenHillとして論文化した。また、これらのプログラムを活用した成果も数本の論文にまとめることができ、申請時よりも前倒しで研究が進行していると考えられる。しかしながら前者の部分に関しては、必要となる機能の開発は一通りできたものの、HiFiリードのエラー率が想定していたよりも高く、これが原因となりkを大きく取るとエラーを含まないk-merの頻度が低くなってしまい、エラーとの区別をk-mer頻度差で行う戦略が取れないため、エラー由来のエッジが多く残ってしまう問題が起きている。この問題の解決に最終年度臨むが、非常に困難が予測されることから、全体的な進捗は予定通りと判断した。
今後の研究の推進方策	最終年度である来年度には、HiFiリードおよびHiCリードを入力とし、de bruijnグラフを用いた精度の高いcontigグラフ構築に引き続きcontig/branchグラフを入力としたphasing, scaffoldingを実施することで、染色体スケールのphasingしたゲノム構築が可能なアセンブラを完成させることを目指す。後半部分はすでにある程度精度、連続性の高い結果を得ることに成功しており、すでにこの部分だけで論文化にも成功している。一方前半部は、必要となる機能の開発は一通りできたものの、HiFiリードのエラー率が想定していたよりも高く、これが原因となりkを大きく取るとエラーを含まないk-merの頻度が低くなってしまい、エラーとの区別をk-mer頻度差で行う戦略が取れないため、エラー由来のエッジが多く残ってしまう問題が起きている。この問題への対応に来年度は注力する予定である。具体的には、HiFiリードのエラー修正機能とエラー由来エッジの枝刈り機能の開発を試みる予定である。前者に関しては、HiFiリード中のk-merの頻度情報に加えて、カバレッジの高いHiCリードの活用も検討する。これら機能の活用により、kのサイズを大きくしたde bruijnグラフ構築を可能とし、枝分かれのない連続性の高いContig構築を目指し、最終的に、このContigを入力とすることで染色体レベルのphasingされたゲノム構築の実現をはかる。各種生物のデータによるベンチマークテストを行い、機能の改善を図り最終的にアセンブラとしての公開、論文化を目指す予定である。

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(4件)

すべて 2023

すべて雑誌論文 (4件) (うち査読あり 4件、オープンアクセス 4件)

[雑誌論文] GreenHill: a de novo chromosome-level scaffolding and phasing tool using Hi-C2023
- 著者名/発表者名
  Shun Ouchi、Rei Kajitani、Takehiko Itoh
- 雑誌名
  
  Genome Biology
  
  巻: 24(1) 号: 1 ページ: 162-162
- DOI
  10.1186/s13059-023-03006-8
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Chromosomal-level Genome Assembly of the Coffee Bee Hawk Moth Reveals the Evolution of Chromosomes and the Molecular Basis of Distinct Phenotypes2023
- 著者名/発表者名
  Yamabe Takahiro、Kajitani Rei、Toyoda Atsushi、Itoh Takehiko
- 雑誌名
  
  Genome Biology and Evolution
  
  巻: 15 号: 9
- DOI
  10.1093/gbe/evad141
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] GINGER: an integrated method for high-accuracy prediction of gene structure in higher eukaryotes at the gene and exon level2023
- 著者名/発表者名
  Takeaki Taniguchi、Miki Okuno、Takahiro Shinoda、Fumiya Kobayashi、Kazuki Takahashi、Hideaki Yuasa、Yuta Nakamura、Hiroyuki Tanaka、Rei Kajitani、Takehiko Itoh
- 雑誌名
  
  DNA Research
  
  巻: 30(4) 号: 4
- DOI
  10.1093/dnares/dsad017
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Chromosomal-level assembly of Tokudaia osimensis, Tokudaia tokunoshimensis, and Tokudaia muenninki genomes2023
- 著者名/発表者名
  Okuno Miki、Mochimaru Yuta、Matsuoka Kentaro、Yamabe Takahiro、Matiz-Ceron Luisa、Jogahara Takamichi、Toyoda Atsushi、Kuroiwa Asato、Itoh Takehiko
- 雑誌名
  
  Scientific Data
  
  巻: 10 号: 1 ページ: 927-927
- DOI
  10.1038/s41597-023-02845-1
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス

de bruijnグラフを用いたロングリード用ゲノムアセンブラの開発

研究代表者

伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)

17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] GreenHill: a de novo chromosome-level scaffolding and phasing tool using Hi-C2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Chromosomal-level Genome Assembly of the Coffee Bee Hawk Moth Reveals the Evolution of Chromosomes and the Molecular Basis of Distinct Phenotypes2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] GINGER: an integrated method for high-accuracy prediction of gene structure in higher eukaryotes at the gene and exon level2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Chromosomal-level assembly of Tokudaia osimensis, Tokudaia tokunoshimensis, and Tokudaia muenninki genomes2023

著者名/発表者名

雑誌名

DOI

関連する報告書

伊藤武彦東京工業大学, 生命理工学院, 教授 (90501106)