2021 年度実施状況報告書

多個体ハプロタイプ解析による超高ヘテロ接合性生物圏の実態解明

研究課題

研究課題/領域番号	20K15769
研究機関	東京工業大学
研究代表者	梶谷嶺東京工業大学, 生命理工学院, 助教 (40756706)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	ハプロタイプ / ゲノム / メタゲノム / 多様性 / ヘテロ接合性
研究実績の概要	本年度では前年度に引き続きハプロタイプ解析用ツールの開発を実施した。開発を進めるにあたって、多数の微生物のハプロタイプが混在した微生物叢のメタゲノムデータは当ツールのテストに適しており、本研究の成果の応用先にもなることが見いだされた。そのため微生物叢のデータを用いて開発を推進し、類似した配列の誤接続を防ぎつつゲノム配列を決定可能なツール: MetaPlatanusを実装し論文発表した (Kajitani et al. 2021)。当ツールは正確性に優れ塩基あたりのコストが低いショートリードDNAシークエンサーのデータ、およびコストは高いが一度に長い配列を読み取れるロングリードDNAシークエンサーのデータを併用することで長いゲノム配列を決定できる。本手法は今後は繰り返し配列が多い真核生物のゲノムデータにも応用されることが期待される。並行して近年に使用例が増加している、DNA分子の空間的な近接関係を捉えるHi-C法や、エラー率の低いロングリード技術であるHiFiリードの利用の検討も行った。代表者は所属研究室の人員と共同でHi-C法を利用したハプロタイプ配列決定手法を開発している (論文投稿中)。また、HiFiリードを用いても高ヘテロ接合性のサンプルに対しては課題が存在することもベンチマークにより確認している。公開データを用いたヘテロ接合度分布の網羅的解析については進行中であるが、多数の生物種のゲノムを対象とした計画 (Vertebrate Genomes Project、Darwin Tree of Lifeｔ等) が急速に進行していることに注意を払っている。次年度はクラウド計算機資源を活用しつつ、大量のデータを並列的に処理して解析結果をまとめていく予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度では前年度に引き続きハプロタイプ解析用ツールの開発を実施した。具体的には、前年度までの開発成果を活用してハプロタイプ配列の決定手法の改良に注力した。開発を進めるにあたって、多数の微生物のハプロタイプが混在した微生物叢のメタゲノムデータは当ツールのテストに適しており、本研究の成果の応用先にもなることが見いだされた。そのため微生物叢のデータを用いて開発を推進し、類似した配列の誤接続を防ぎつつゲノム配列を決定可能なツール: MetaPlatanusを実装し論文発表した (Kajitani et al. 2021)。当ツールは正確性に優れ塩基あたりのコストが低いショートリードDNAシークエンサーのデータ、およびコストは高いが一度に長い配列を読み取れるロングリードDNAシークエンサーのデータを併用することで長いゲノム配列を決定できる。また、生物種ごとに部分文字列やリード (読み取り量) が異なることを利用して配列接続のエラーを防止する機能を持つ。なお、微生物叢のデータ取得等には他の研究課題も関連しているが、その研究期間は終了しており本年度は本研究課題の予算を基に進められた。本手法は今後は繰り返し配列が多い真核生物のゲノムデータにも応用されることが期待される。並行して近年に使用例が増加している、DNA分子の空間的な近接関係を捉えるHi-C法や、エラー率の低いロングリード技術であるHiFiリードの利用の検討も行った。代表者は所属研究室の人員と共同でHi-C法を利用したハプロタイプ配列決定手法を開発している (論文投稿中)。また、HiFiリードを用いても高ヘテロ接合性のサンプルに対しては課題が存在することもベンチマークにより確認している。
今後の研究の推進方策	開発されたツールであるMetaPlatanusは繰り返し配列が多い真核生物のゲノムデータにも応用されることが期待されるため、関連ツールとアルゴリズムを組み合わせつつそれらのデータへの最適化を模索する。公開データを用いたヘテロ接合度分布の網羅的解析については進行中であるが、多数の生物種のゲノムを対象とした計画 (Vertebrate Genomes Project、Darwin Tree of Life等) が急速に進行していることに注意を払っている。さらにヒトゲノムの完全配列とその解析結果が発表され、セントロメア等の難配列決定領域で集団内での多様性が高まっていると報告されたことも考慮し、短い部分配列 (k-mer) だけでなくそのような領域を含めた大きなスケールでのゲノム構造も観察していきたい。前述のプロジェクト群では大量のドラフトゲノム配列が産出されているが、利用にあたっての権利関係に注意しつつ、これらも解析に含めることを想定している。それにより、DNAシークエンサーの生リードデータのみの解析より多くの知見が得られると期待される。大容量の公開データをダウンロードして解析するためには、多くの計算機と速い通信速度を備えた環境が望ましいため、次年度は課金によるクラウド計算機資源活用を行いつつ、大量のデータを並列的に処理して解析結果をまとめていく予定である。
次年度使用額が生じた理由	当初の予定から発展して微生物叢データの解析ツール解析を行ったことや、公開ゲノムデータの急速な拡充により計算機環境の構築方法の変更を検討したことによる。課金によるクラウド計算機資源の利用や論文投稿料などに経費を使用する予定である。

研究成果
(2件)

すべて 2021

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (1件)

[雑誌論文] MetaPlatanus: a metagenome assembler that combines long-range sequence links and species-specific features2021
- 著者名/発表者名
  Kajitani Rei、Noguchi Hideki、Gotoh Yasuhiro、Ogura Yoshitoshi、Yoshimura Dai、Okuno Miki、Toyoda Atsushi、Kuwahara Tomomi、Hayashi Tetsuya、Itoh Takehiko
- 雑誌名
  
  Nucleic Acids Research
  
  巻: 49 ページ: e130～e130
- DOI
  10.1093/nar/gkab831
- 査読あり / オープンアクセス
[学会発表] Hi-Cデータを用いたビニングツールの開発2021
- 著者名/発表者名
  服部拓海、梶谷嶺、伊藤武彦
- 学会等名
  第11回生命医薬情報学連合大会

2021 年度 実施状況報告書

多個体ハプロタイプ解析による超高ヘテロ接合性生物圏の実態解明

研究代表者

梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] MetaPlatanus: a metagenome assembler that combines long-range sequence links and species-specific features2021

著者名/発表者名

雑誌名

DOI

[学会発表] Hi-Cデータを用いたビニングツールの開発2021

著者名/発表者名

学会等名

2021 年度実施状況報告書

梶谷嶺東京工業大学, 生命理工学院, 助教 (40756706)