研究課題/領域番号 |
23K18093
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分43:分子レベルから細胞レベルの生物学およびその関連分野
|
研究機関 | 東京工業大学 |
研究代表者 |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
研究期間 (年度) |
2023-06-30 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2024年度: 2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2023年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
|
キーワード | ゲノムアセンブル / 多倍体ゲノム |
研究開始時の研究の概要 |
本研究課題では、塩基レベルの精度を持つde bruijnグラフアルゴリズムを高精度HiFiロングリードに適用し、アレル毎のcontigを極力出力する機能の開発、およびPore-Cデータを活用したphasing / scaffolding機能の開発により、多倍体サンプル由来リードのみから全染色体を個別に分けた配列の構築を行うアセンブルプログラムの完成を目指す。 また、植物などを対象とし実データからゲノム配列の構築を行い、本手法の有効性を示すとともに、アレル間の差に着目した解析を通じ、新たな生物学的知見の獲得を目指す。
|
研究実績の概要 |
本年度は期初に立てた目標に従い、大別して以下の二点を実施した。 (1) HiFIリードからのde bruijnグラフ構築アルゴリズムの開発: de bruijnグラフを元にしたcontigアセンブルグラフ構築において、HiFiリードへの適応を試みた。HiFiリードにも頻度は低いもののエラーが存在することから、エラーフリーな長いk-merを取ることが困難となり、HiFiリード中のエラーへの対処方法を検討した。その結果、HiFIリード中のエラーの大部分は一定回数以上出現するホモポリマーや2文字の繰り返しからなる配列の繰り返し回数の違いによるものであることが確認できたため、これらの部分を圧縮し、圧縮したリードからk-merを取ることによる解決を行った。この機能をPlatanus-alleeで用いられているde bruijnグラフ構築アルゴリズムに組み込むことで、比較的大きなk-merサイズまで対応ができることを確認した。 (2) Pore-Cデータの取得、解析:contigグラフをphasing / scaffoldingするために用いるPore-C実データの取得、解析を実施した。公開されデータベースに格納されているシロイヌナズナ、イネ、ヒトなどのモデル生物データに加え、すでにゲノム既知の4倍体植物由来のPore-Cデータを取得し、既知ゲノムへのマッピングを行うことで、Pore-Cデータの基本的な統計情報の確認を実施した。Pore-CはNanoporeシークエンサーを用いてデータ取得を行うためエラー率が高く、ある程度の長さのデータの断片が確保できないとゲノム上のマッピング箇所を一意に決定することが困難となる。これら予備解析を通じて、どの程度の長さのデータが必要かなどの情報を得ることができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究開発は、de bruijnグラフを元にしたcontig構築部とPore-Cを活用したphasing / scaffoldin部からなるが、前者においては期初に予定していたよりもHiFiリードのエラー率が高いことが判明し、エラーに起因した枝を刈ることでのk-merのサイズを大きく取ることが困難である。この問題を克服するためホモポリマー圧縮などによる解決機能を実装はしたが、それでもやはりエラーがかなりの頻度で残っているのが現状である。本研究では同時にIlluminaリードの取得を実施しない予定のため、潤沢なカバレッジを活用したエラーと実在するk-merの区別が困難であり、この問題を解決することは現状難しいと言わざるを得ない。
|
今後の研究の推進方策 |
現在までの進捗状況にも記載した通り、期初に立てた計画に基づいたデータセットからのde bruijnグラフ構築はHiFiリードのエラー率から実現が困難であると考えられる。そのため最終年度である次年度は、Pore-Cを用いたphasing / scaffolding機能の研究開発に注力し、この部分だけでも独立したツールとして公開することを目指す。 特にHi-Cデータを用いた同様なツールと比べて、二点間の遠距離情報のみならず、同一染色体由来の複数点のリンク情報が得られるのが最大のメリットであることから、この特徴を活かしたアルゴリズムの開発を実施する。従前に10X Chromiumデータを活用したscaffolding機能を開発した事例があることから、その際に用いたアルゴリズムの応用を行うことでPore-Cデータの活用も行えると考えている。 適切なターゲットとしては、類似した染色体配列を複数持つ多倍体植物ゲノムを想定しており、ホモ領域の存在により複雑な枝分かれ構造となってしまうcontigグラフをPore-Cデータにより適切にphasingすることで構成するサブゲノム毎にアセンブルを可能となるアルゴリズムの構築を試みる。 また、これらの実現のため複数サンプルの実データ(HiFi, Pore-Cデータ)を取得し、ベンチマークテストを行い、その結果をアルゴリズム改良にフィードバックさせることで精度の向上を行う予定である。
|