多個体ハプロタイプ解析による超高ヘテロ接合性生物圏の実態解明
Project/Area Number |
20K15769
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 43050:Genome biology-related
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Discontinued (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | ハプロタイプ / ゲノム / ヘテロ接合性 / NGS / メタゲノム / 多様性 / ゲノム多様性 / 高ヘテロ接合性 / de novoアセンブリ |
Outline of Research at the Start |
多数種のゲノムデータの蓄積に伴い、ヘテロ接合性が1%を超えるような「超高ヘテロ接合性生物」が多くの系統で発見されるようになったが、その実態は不明な部分が多い。本研究ではバイオインフォマティクスに基づき、(i) 地球上での超高ヘテロ接合性生物の種類数と量の実態把握、(ii) 当生物の多個体のゲノムデータの解析技術の開発、(iii) 当生物のモデル生物化の促進、を目的とする。方法としては、公開シークエンシングデータの網羅的な再解析、および高ヘテロ接合性領域への対処として有効なハプロタイプ解析技術の開発を主軸とする。
|
Outline of Annual Research Achievements |
本年度は前年度に引き続き、DNA分子の空間的な近接関係を捉えるHi-C法のデータを活用したハプロタイプ構築手法の開発も行った。ロングリード用ゲノムアセンブラの出力配列 (contig) を入力とし、染色体レベルのハプロタイプ配列 (scaffold) の構築に多くのケースで成功したが、一部のケースでは、入力のアセンブリ済み配列 (contig) の処理の問題で最終的な配列が断片化する問題が発生した。前年度までに開発したde Bruijnグラフ構造を操作するツールを応用し、入力配列の相同領域を効率よく対応づけることで、最終的な配列を安定して染色体スケールにすることができた。 また、公開データを用いたヘテロ接合度の推定パイプラインを開発し、さらに他の大型ゲノム決定プロジェクトのデータに関しても調査を実施した。解析パイプラインの最初のステップはメタデータの抽出であり、ショートリードDNAシークエンサーデータの情報を抽出し、データサイズ、対象生物の系統、シークエンサーの種類などでフィルタリングを行う。対象データベースはSequence Read Archive (SRA) である。次のステップでは、シークエンサーのリードデータのダウンロード、トリミング、コンタミネーションの除去、k-mer頻度解析を行い、最終的にヘテロ接合度などの統計量を推定する。さらに、多数の生物種のゲノムを対象とした計画:Darwin Tree of Lifeの解析結果も参照し、ヘテロ接合度の集計を行った。結果としては、高ヘテロ接合性 (>1%) のサンプルが、予想通り多く観察された。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
公開データを用いたヘテロ接合度の推定パイプラインを開発した。解析パイプラインの最初のステップはメタデータの抽出であるが、そこでは情報取得ツール:Entrez DirectでショートリードDNAシークエンサーデータの情報 (メタデータ) を抽出し、データサイズ、対象生物の系統、シークエンサーの種類などでフィルタリングをしてクオリティのコントロールも行う。対象データベースはSequence Read Archive (SRA) である。次のステップでは、シークエンサーのリードデータのダウンロード (SRA Toolkit)、トリミング (fastp)、コンタミネーションの除去 (Kraken2)、k-mer頻度解析 (GenomeScope2) を行い、最終的にヘテロ接合度などの統計量を推定する。さらに、多数の生物種のゲノムを対象とした計画:Darwin Tree of Lifeの解析結果も参照し、ヘテロ接合度の集計を行った。結果としては、高ヘテロ接合性 (>1%) のサンプルが、予想通り多く観察された。 並行して、DNA分子の空間的な近接関係を捉えるHi-C法のデータを活用したハプロタイプ構築手法の開発も行った。ロングリード用ゲノムアセンブラの出力配列 (contig) を入力とし、染色体レベルのハプロタイプ配列 (scaffold) の構築に多くのケースで成功したが、一部のケースでは、入力のアセンブリ済み配列 (contig) の処理の問題で最終的な配列が断片化する問題が発生した。前年度までに開発したde Bruijnグラフ構造を操作するツールを応用し、入力配列の相同領域を効率よく対応づけることで、最終的な配列を安定して染色体スケールにすることができた。しかしながら、ツールの論文の査読期間が10ヶ月以上と長引き、論文発表に至っていない。
|
Strategy for Future Research Activity |
開発されたハプロタイプ構築ツールに関する論文は査読中であるが、ベンチマーク対象の生物種を増やして汎用性について検証する。当Hi-C法リードのリンク情報を基に入力配列 (contig) を接続していくが、contig数が多い場合に実行時間が大きくなる問題がある。特に、de Bruijnグラフ構造を応用して相同領域を対応づけるツールを適用した場合に結果のcontig数が大きくなる傾向がある。対策としてボトルネックになっている関数の部分に関して効率の良い並列化を実装することで問題を解決することを検討している。 公開データのヘテロ接合度推定ツールについては、データのダウンロード段階が律速になっている。あるデータのダウンロード中に別のステップを並列化し、さらに複数のマシンで並列実行するフレームワークを構築することを検討している。
|
Report
(3 results)
Research Products
(4 results)