多個体ハプロタイプ解析による超高ヘテロ接合性生物圏の実態解明

Research Project

Project/Area Number	20K15769
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 43050:Genome biology-related
Research Institution	Tokyo Institute of Technology
Principal Investigator	梶谷嶺東京工業大学, 生命理工学院, 助教 (40756706)
Project Period (FY)	2020-04-01 – 2024-03-31
Project Status	Discontinued (Fiscal Year 2022)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords	ハプロタイプ / ゲノム / ヘテロ接合性 / NGS / メタゲノム / 多様性 / ゲノム多様性 / 高ヘテロ接合性 / de novoアセンブリ
Outline of Research at the Start	多数種のゲノムデータの蓄積に伴い、ヘテロ接合性が1%を超えるような「超高ヘテロ接合性生物」が多くの系統で発見されるようになったが、その実態は不明な部分が多い。本研究ではバイオインフォマティクスに基づき、(i) 地球上での超高ヘテロ接合性生物の種類数と量の実態把握、(ii) 当生物の多個体のゲノムデータの解析技術の開発、(iii) 当生物のモデル生物化の促進、を目的とする。方法としては、公開シークエンシングデータの網羅的な再解析、および高ヘテロ接合性領域への対処として有効なハプロタイプ解析技術の開発を主軸とする。
Outline of Annual Research Achievements	本年度は前年度に引き続き、DNA分子の空間的な近接関係を捉えるHi-C法のデータを活用したハプロタイプ構築手法の開発も行った。ロングリード用ゲノムアセンブラの出力配列 (contig) を入力とし、染色体レベルのハプロタイプ配列 (scaffold) の構築に多くのケースで成功したが、一部のケースでは、入力のアセンブリ済み配列 (contig) の処理の問題で最終的な配列が断片化する問題が発生した。前年度までに開発したde Bruijnグラフ構造を操作するツールを応用し、入力配列の相同領域を効率よく対応づけることで、最終的な配列を安定して染色体スケールにすることができた。また、公開データを用いたヘテロ接合度の推定パイプラインを開発し、さらに他の大型ゲノム決定プロジェクトのデータに関しても調査を実施した。解析パイプラインの最初のステップはメタデータの抽出であり、ショートリードDNAシークエンサーデータの情報を抽出し、データサイズ、対象生物の系統、シークエンサーの種類などでフィルタリングを行う。対象データベースはSequence Read Archive (SRA) である。次のステップでは、シークエンサーのリードデータのダウンロード、トリミング、コンタミネーションの除去、k-mer頻度解析を行い、最終的にヘテロ接合度などの統計量を推定する。さらに、多数の生物種のゲノムを対象とした計画：Darwin Tree of Lifeの解析結果も参照し、ヘテロ接合度の集計を行った。結果としては、高ヘテロ接合性 (>1%) のサンプルが、予想通り多く観察された。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 公開データを用いたヘテロ接合度の推定パイプラインを開発した。解析パイプラインの最初のステップはメタデータの抽出であるが、そこでは情報取得ツール：Entrez DirectでショートリードDNAシークエンサーデータの情報 (メタデータ) を抽出し、データサイズ、対象生物の系統、シークエンサーの種類などでフィルタリングをしてクオリティのコントロールも行う。対象データベースはSequence Read Archive (SRA) である。次のステップでは、シークエンサーのリードデータのダウンロード (SRA Toolkit)、トリミング (fastp)、コンタミネーションの除去 (Kraken2)、k-mer頻度解析 (GenomeScope2) を行い、最終的にヘテロ接合度などの統計量を推定する。さらに、多数の生物種のゲノムを対象とした計画：Darwin Tree of Lifeの解析結果も参照し、ヘテロ接合度の集計を行った。結果としては、高ヘテロ接合性 (>1%) のサンプルが、予想通り多く観察された。並行して、DNA分子の空間的な近接関係を捉えるHi-C法のデータを活用したハプロタイプ構築手法の開発も行った。ロングリード用ゲノムアセンブラの出力配列 (contig) を入力とし、染色体レベルのハプロタイプ配列 (scaffold) の構築に多くのケースで成功したが、一部のケースでは、入力のアセンブリ済み配列 (contig) の処理の問題で最終的な配列が断片化する問題が発生した。前年度までに開発したde Bruijnグラフ構造を操作するツールを応用し、入力配列の相同領域を効率よく対応づけることで、最終的な配列を安定して染色体スケールにすることができた。しかしながら、ツールの論文の査読期間が10ヶ月以上と長引き、論文発表に至っていない。
Strategy for Future Research Activity	開発されたハプロタイプ構築ツールに関する論文は査読中であるが、ベンチマーク対象の生物種を増やして汎用性について検証する。当Hi-C法リードのリンク情報を基に入力配列 (contig) を接続していくが、contig数が多い場合に実行時間が大きくなる問題がある。特に、de Bruijnグラフ構造を応用して相同領域を対応づけるツールを適用した場合に結果のcontig数が大きくなる傾向がある。対策としてボトルネックになっている関数の部分に関して効率の良い並列化を実装することで問題を解決することを検討している。公開データのヘテロ接合度推定ツールについては、データのダウンロード段階が律速になっている。あるデータのダウンロード中に別のステップを並列化し、さらに複数のマシンで並列実行するフレームワークを構築することを検討している。

Report

(3 results)

Research Products

(4 results)

All 2023 2021 2020

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Journal Article] MetaPlatanus: a metagenome assembler that combines long-range sequence links and species-specific features2021
- Author(s)
  Rei Kajitani, Hideki Noguchi, Yasuhiro Gotoh, Yoshitoshi Ogura, Dai Yoshimura, Miki Okuno, Atsushi Toyoda, Tomomi Kuwahara, Tetsuya Hayashi, Takehiko Itoh
- Journal Title
  
  Nucleic Acids Research
  
  Volume: 49 Issue: 22 Pages: e130-e130
- DOI
  10.1093/nar/gkab831
- Related Report
  2021 Research-status Report
- Peer Reviewed / Open Access
[Presentation] GreenHill: A De Novo Chromosome-Level Scaffolding and Phasing Tool Using Hi-C2023
- Author(s)
  Shun Ouchi, Rei Kajitani, Takehiko Itoh
- Organizer
  Plant and Animal Genome Conference / PAG 30
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] Hi-Cデータを用いたビニングツールの開発2021
- Author(s)
  服部拓海、梶谷嶺、伊藤武彦
- Organizer
  第11回生命医薬情報学連合大会
- Related Report
  2021 Research-status Report
[Presentation] ロングリードを活用したゲノムアセンブリ用新規スキャフォールディングツールの開発2020
- Author(s)
  石井裕太、梶谷嶺、伊藤武彦
- Organizer
  第９回生命医薬情報学連合大会
- Related Report
  2020 Research-status Report

多個体ハプロタイプ解析による超高ヘテロ接合性生物圏の実態解明

Principal Investigator

梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] MetaPlatanus: a metagenome assembler that combines long-range sequence links and species-specific features2021

Author(s)

Journal Title

DOI

Related Report

[Presentation] GreenHill: A De Novo Chromosome-Level Scaffolding and Phasing Tool Using Hi-C2023

Author(s)

Organizer

Related Report

[Presentation] Hi-Cデータを用いたビニングツールの開発2021

Author(s)

Organizer

Related Report

[Presentation] ロングリードを活用したゲノムアセンブリ用新規スキャフォールディングツールの開発2020

Author(s)

Organizer

Related Report

梶谷嶺東京工業大学, 生命理工学院, 助教 (40756706)