Pore-Cデータを活用した多倍体ゲノムアセンブル手法の開発

Research Project

Project/Area Number	23K18093
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 43:Biology at molecular to cellular levels, and related fields
Research Institution	Tokyo Institute of Technology
Principal Investigator	伊藤武彦東京工業大学, 生命理工学院, 教授 (90501106)
Project Period (FY)	2023-06-30 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000) Fiscal Year 2024: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000) Fiscal Year 2023: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Keywords	ゲノムアセンブル / 多倍体ゲノム
Outline of Research at the Start	本研究課題では、塩基レベルの精度を持つde bruijnグラフアルゴリズムを高精度HiFiロングリードに適用し、アレル毎のcontigを極力出力する機能の開発、およびPore-Cデータを活用したphasing / scaffolding機能の開発により、多倍体サンプル由来リードのみから全染色体を個別に分けた配列の構築を行うアセンブルプログラムの完成を目指す。また、植物などを対象とし実データからゲノム配列の構築を行い、本手法の有効性を示すとともに、アレル間の差に着目した解析を通じ、新たな生物学的知見の獲得を目指す。
Outline of Annual Research Achievements	本年度は期初に立てた目標に従い、大別して以下の二点を実施した。 (1) HiFIリードからのde bruijnグラフ構築アルゴリズムの開発：　de bruijnグラフを元にしたcontigアセンブルグラフ構築において、HiFiリードへの適応を試みた。HiFiリードにも頻度は低いもののエラーが存在することから、エラーフリーな長いk-merを取ることが困難となり、HiFiリード中のエラーへの対処方法を検討した。その結果、HiFIリード中のエラーの大部分は一定回数以上出現するホモポリマーや2文字の繰り返しからなる配列の繰り返し回数の違いによるものであることが確認できたため、これらの部分を圧縮し、圧縮したリードからk-merを取ることによる解決を行った。この機能をPlatanus-alleeで用いられているde bruijnグラフ構築アルゴリズムに組み込むことで、比較的大きなk-merサイズまで対応ができることを確認した。 (2) Pore-Cデータの取得、解析：contigグラフをphasing / scaffoldingするために用いるPore-C実データの取得、解析を実施した。公開されデータベースに格納されているシロイヌナズナ、イネ、ヒトなどのモデル生物データに加え、すでにゲノム既知の4倍体植物由来のPore-Cデータを取得し、既知ゲノムへのマッピングを行うことで、Pore-Cデータの基本的な統計情報の確認を実施した。Pore-CはNanoporeシークエンサーを用いてデータ取得を行うためエラー率が高く、ある程度の長さのデータの断片が確保できないとゲノム上のマッピング箇所を一意に決定することが困難となる。これら予備解析を通じて、どの程度の長さのデータが必要かなどの情報を得ることができた。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 本研究開発は、de bruijnグラフを元にしたcontig構築部とPore-Cを活用したphasing / scaffoldin部からなるが、前者においては期初に予定していたよりもHiFiリードのエラー率が高いことが判明し、エラーに起因した枝を刈ることでのk-merのサイズを大きく取ることが困難である。この問題を克服するためホモポリマー圧縮などによる解決機能を実装はしたが、それでもやはりエラーがかなりの頻度で残っているのが現状である。本研究では同時にIlluminaリードの取得を実施しない予定のため、潤沢なカバレッジを活用したエラーと実在するk-merの区別が困難であり、この問題を解決することは現状難しいと言わざるを得ない。
Strategy for Future Research Activity	現在までの進捗状況にも記載した通り、期初に立てた計画に基づいたデータセットからのde bruijnグラフ構築はHiFiリードのエラー率から実現が困難であると考えられる。そのため最終年度である次年度は、Pore-Cを用いたphasing / scaffolding機能の研究開発に注力し、この部分だけでも独立したツールとして公開することを目指す。特にHi-Cデータを用いた同様なツールと比べて、二点間の遠距離情報のみならず、同一染色体由来の複数点のリンク情報が得られるのが最大のメリットであることから、この特徴を活かしたアルゴリズムの開発を実施する。従前に10X Chromiumデータを活用したscaffoldinｇ機能を開発した事例があることから、その際に用いたアルゴリズムの応用を行うことでPore-Cデータの活用も行えると考えている。適切なターゲットとしては、類似した染色体配列を複数持つ多倍体植物ゲノムを想定しており、ホモ領域の存在により複雑な枝分かれ構造となってしまうcontigグラフをPore-Cデータにより適切にphasingすることで構成するサブゲノム毎にアセンブルを可能となるアルゴリズムの構築を試みる。また、これらの実現のため複数サンプルの実データ（HiFi, Pore-Cデータ)を取得し、ベンチマークテストを行い、その結果をアルゴリズム改良にフィードバックさせることで精度の向上を行う予定である。

Report

(1 results)

2023 Research-status Report

Research Products
(1 results)

All 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results)

[Journal Article] Chromosomal-level assembly of Tokudaia osimensis, Tokudaia tokunoshimensis, and Tokudaia muenninki genomes2023
- Author(s)
  Okuno Miki、Mochimaru Yuta、Matsuoka Kentaro、Yamabe Takahiro、Matiz-Ceron Luisa、Jogahara Takamichi、Toyoda Atsushi、Kuroiwa Asato、Itoh Takehiko
- Journal Title
  
  Scientific Data
  
  Volume: 10 Issue: 1 Pages: 927-927
- DOI
  10.1038/s41597-023-02845-1
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access

Pore-Cデータを活用した多倍体ゲノムアセンブル手法の開発

Principal Investigator

伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)

¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Chromosomal-level assembly of Tokudaia osimensis, Tokudaia tokunoshimensis, and Tokudaia muenninki genomes2023

Author(s)

Journal Title

DOI

Related Report

伊藤武彦東京工業大学, 生命理工学院, 教授 (90501106)