Project/Area Number |
23K18093
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 43:Biology at molecular to cellular levels, and related fields
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
Project Period (FY) |
2023-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2024: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2023: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
|
Keywords | ゲノムアセンブル / 多倍体ゲノム |
Outline of Research at the Start |
本研究課題では、塩基レベルの精度を持つde bruijnグラフアルゴリズムを高精度HiFiロングリードに適用し、アレル毎のcontigを極力出力する機能の開発、およびPore-Cデータを活用したphasing / scaffolding機能の開発により、多倍体サンプル由来リードのみから全染色体を個別に分けた配列の構築を行うアセンブルプログラムの完成を目指す。 また、植物などを対象とし実データからゲノム配列の構築を行い、本手法の有効性を示すとともに、アレル間の差に着目した解析を通じ、新たな生物学的知見の獲得を目指す。
|
Outline of Annual Research Achievements |
本年度は期初に立てた目標に従い、大別して以下の二点を実施した。 (1) HiFIリードからのde bruijnグラフ構築アルゴリズムの開発: de bruijnグラフを元にしたcontigアセンブルグラフ構築において、HiFiリードへの適応を試みた。HiFiリードにも頻度は低いもののエラーが存在することから、エラーフリーな長いk-merを取ることが困難となり、HiFiリード中のエラーへの対処方法を検討した。その結果、HiFIリード中のエラーの大部分は一定回数以上出現するホモポリマーや2文字の繰り返しからなる配列の繰り返し回数の違いによるものであることが確認できたため、これらの部分を圧縮し、圧縮したリードからk-merを取ることによる解決を行った。この機能をPlatanus-alleeで用いられているde bruijnグラフ構築アルゴリズムに組み込むことで、比較的大きなk-merサイズまで対応ができることを確認した。 (2) Pore-Cデータの取得、解析:contigグラフをphasing / scaffoldingするために用いるPore-C実データの取得、解析を実施した。公開されデータベースに格納されているシロイヌナズナ、イネ、ヒトなどのモデル生物データに加え、すでにゲノム既知の4倍体植物由来のPore-Cデータを取得し、既知ゲノムへのマッピングを行うことで、Pore-Cデータの基本的な統計情報の確認を実施した。Pore-CはNanoporeシークエンサーを用いてデータ取得を行うためエラー率が高く、ある程度の長さのデータの断片が確保できないとゲノム上のマッピング箇所を一意に決定することが困難となる。これら予備解析を通じて、どの程度の長さのデータが必要かなどの情報を得ることができた。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究開発は、de bruijnグラフを元にしたcontig構築部とPore-Cを活用したphasing / scaffoldin部からなるが、前者においては期初に予定していたよりもHiFiリードのエラー率が高いことが判明し、エラーに起因した枝を刈ることでのk-merのサイズを大きく取ることが困難である。この問題を克服するためホモポリマー圧縮などによる解決機能を実装はしたが、それでもやはりエラーがかなりの頻度で残っているのが現状である。本研究では同時にIlluminaリードの取得を実施しない予定のため、潤沢なカバレッジを活用したエラーと実在するk-merの区別が困難であり、この問題を解決することは現状難しいと言わざるを得ない。
|
Strategy for Future Research Activity |
現在までの進捗状況にも記載した通り、期初に立てた計画に基づいたデータセットからのde bruijnグラフ構築はHiFiリードのエラー率から実現が困難であると考えられる。そのため最終年度である次年度は、Pore-Cを用いたphasing / scaffolding機能の研究開発に注力し、この部分だけでも独立したツールとして公開することを目指す。 特にHi-Cデータを用いた同様なツールと比べて、二点間の遠距離情報のみならず、同一染色体由来の複数点のリンク情報が得られるのが最大のメリットであることから、この特徴を活かしたアルゴリズムの開発を実施する。従前に10X Chromiumデータを活用したscaffolding機能を開発した事例があることから、その際に用いたアルゴリズムの応用を行うことでPore-Cデータの活用も行えると考えている。 適切なターゲットとしては、類似した染色体配列を複数持つ多倍体植物ゲノムを想定しており、ホモ領域の存在により複雑な枝分かれ構造となってしまうcontigグラフをPore-Cデータにより適切にphasingすることで構成するサブゲノム毎にアセンブルを可能となるアルゴリズムの構築を試みる。 また、これらの実現のため複数サンプルの実データ(HiFi, Pore-Cデータ)を取得し、ベンチマークテストを行い、その結果をアルゴリズム改良にフィードバックさせることで精度の向上を行う予定である。
|