研究課題/領域番号 |
22KJ0650
|
補助金の研究課題番号 |
21J21762 (2021-2022)
|
研究種目 |
特別研究員奨励費
|
配分区分 | 基金 (2023) 補助金 (2021-2022) |
応募区分 | 国内 |
審査区分 |
小区分43050:ゲノム生物学関連
|
研究機関 | 東京大学 |
研究代表者 |
中林 亮 東京大学, 新領域創成科学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2023-03-08 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
2,200千円 (直接経費: 2,200千円)
2023年度: 700千円 (直接経費: 700千円)
2022年度: 700千円 (直接経費: 700千円)
2021年度: 800千円 (直接経費: 800千円)
|
キーワード | ゲノムアセンブリ / 反復配列 / de Bruijn graph / k-mer / ベイズ推定 / de Bruijnグラフ / 統計的推測 |
研究開始時の研究の概要 |
生物の全遺伝情報であるゲノムは、その生物の機能解明だけでなく生物間比較による進化履歴の推定にも不可欠である。しかし各染色体全長の配列再構成は、繰り返し現れる類似配列と、DNAシークエンサーで測定できるDNA断片の短さとエラーが原因で難しく、一部のモデル生物を除いて未完成で、ヒトゲノムでも一部達成できていない。本研究は近年注目される安価で簡便に染色体全体の構造を明らかにできるHi-C法を使った大域的な配列決定手法と、最新の高精度なシークエンサーの出力から類似配列を適切に扱った局所的な配列決定を組み合わせることで、欠落が少ない染色体全長ゲノムの新規決定手法を開発することを目的としている。
|
研究実績の概要 |
染色体長の完全なゲノム配列を決定するためには、DNAシークエンサーで読み取った誤りを含む断片配列(リード)を繋ぎ合わせて、ゲノム中の反復領域の配列を正確に再構成する方法が必要不可欠である。しかし、リード長が短くエラー率が高い場合、類似したリピート配列同士を確実に区別することは難しく、リードからゲノムを復元する際に曖昧さが生じる。近年精度と長さが向上しているロングリードシークエンサーのデータを用いても、既存のゲノムアセンブラは反復的な領域を限られた量のリードでアセンブリする場合に誤ることが多かった。また出力結果の確信度を定量できないため、アセンブリ結果が信頼できるかどうかは手動で確認するしかなかった。
本研究ではまず、ゲノムアセンブリを、k-merのコピー数の事後分布の推定として定式化し、アセンブリ結果の確信度を事後確率として評価することを提案した。そしてリード中のk-merから、ゲノム中に存在しない確率が高いk-merを取り除きながらkを大きくしていくことで、事後確率の高いゲノムを効率的に列挙できる探索手法を作った。実際に、反復領域を低カバレッジのリードでアセンブリした時に、この手法の精度が現在主流の手法hifiasmに比べて高いことを、ヒトゲノム中の医学的に重要な遺伝子領域であるKIRや人工的なリピート配列を用いた実験で示せた。
この研究について国際学会RECOMB 2023にてポスター発表をし、ゲノムアセンブリの研究者らと理論や応用について議論した。また博士論文を執筆し、投稿論文をリバイズしている最中である。今後は、さらに大きい領域をアセンブリできるように高速化し、Hi-C法と組み合わせられるように理論的枠組みを拡張することを考えている。
|