• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Hi-C法と類似配列カタログによる染色体長ギャップレスゲノムアセンブリ手法の開発

Research Project

Project/Area Number 22KJ0650
Project/Area Number (Other) 21J21762 (2021-2022)
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeMulti-year Fund (2023)
Single-year Grants (2021-2022)
Section国内
Review Section Basic Section 43050:Genome biology-related
Research InstitutionThe University of Tokyo

Principal Investigator

中林 亮  東京大学, 新領域創成科学研究科, 特別研究員(DC1)

Project Period (FY) 2023-03-08 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2023: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2022: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2021: ¥800,000 (Direct Cost: ¥800,000)
Keywordsゲノムアセンブリ / 反復配列 / de Bruijn graph / k-mer / ベイズ推定 / de Bruijnグラフ / 統計的推測
Outline of Research at the Start

生物の全遺伝情報であるゲノムは、その生物の機能解明だけでなく生物間比較による進化履歴の推定にも不可欠である。しかし各染色体全長の配列再構成は、繰り返し現れる類似配列と、DNAシークエンサーで測定できるDNA断片の短さとエラーが原因で難しく、一部のモデル生物を除いて未完成で、ヒトゲノムでも一部達成できていない。本研究は近年注目される安価で簡便に染色体全体の構造を明らかにできるHi-C法を使った大域的な配列決定手法と、最新の高精度なシークエンサーの出力から類似配列を適切に扱った局所的な配列決定を組み合わせることで、欠落が少ない染色体全長ゲノムの新規決定手法を開発することを目的としている。

Outline of Annual Research Achievements

染色体長の完全なゲノム配列を決定するためには、DNAシークエンサーで読み取った誤りを含む断片配列(リード)を繋ぎ合わせて、ゲノム中の反復領域の配列を正確に再構成する方法が必要不可欠である。しかし、リード長が短くエラー率が高い場合、類似したリピート配列同士を確実に区別することは難しく、リードからゲノムを復元する際に曖昧さが生じる。近年精度と長さが向上しているロングリードシークエンサーのデータを用いても、既存のゲノムアセンブラは反復的な領域を限られた量のリードでアセンブリする場合に誤ることが多かった。また出力結果の確信度を定量できないため、アセンブリ結果が信頼できるかどうかは手動で確認するしかなかった。

本研究ではまず、ゲノムアセンブリを、k-merのコピー数の事後分布の推定として定式化し、アセンブリ結果の確信度を事後確率として評価することを提案した。そしてリード中のk-merから、ゲノム中に存在しない確率が高いk-merを取り除きながらkを大きくしていくことで、事後確率の高いゲノムを効率的に列挙できる探索手法を作った。実際に、反復領域を低カバレッジのリードでアセンブリした時に、この手法の精度が現在主流の手法hifiasmに比べて高いことを、ヒトゲノム中の医学的に重要な遺伝子領域であるKIRや人工的なリピート配列を用いた実験で示せた。

この研究について国際学会RECOMB 2023にてポスター発表をし、ゲノムアセンブリの研究者らと理論や応用について議論した。また博士論文を執筆し、投稿論文をリバイズしている最中である。今後は、さらに大きい領域をアセンブリできるように高速化し、Hi-C法と組み合わせられるように理論的枠組みを拡張することを考えている。

Report

(3 results)
  • 2023 Annual Research Report
  • 2022 Annual Research Report
  • 2021 Annual Research Report
  • Research Products

    (2 results)

All 2023

All Presentation (2 results) (of which Int'l Joint Research: 2 results)

  • [Presentation] Bayesian inference of genome via k-mer copy numbers in de Bruijn graph2023

    • Author(s)
      Ryo Nakabayashi, Shinichi Morishita
    • Organizer
      Research in Computational Molecular Biology 27th Annual International Conference (RECOMB 2023)
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Accurate genome assembly of repetitive regions by maximizing a posteriori probability of k-mer copy numbers in de Bruijn graph2023

    • Author(s)
      Ryo Nakabayashi, Shinichi Morishita
    • Organizer
      14th International Congress of Human Genetics
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research

URL: 

Published: 2021-05-27   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi