研究実績の概要 |
反復配列に富みゲノムサイズが極めて大きい(11Gbp)植物ゲノムとしてスギゲノムを選び、反復配列に富むゲノムのアセンブリを行う様々な方法やアルゴリズムについて検討を行った。共同研究者により以前からシークエンスを提供されていた、あるいは本年度に新たにシークエンスを行ったロングリード(PacBio RS II, PacBio Sequel I, PacBio Sequel II, Oxford Nanopore PromethION)およびショートリード( Illumina, 10X Chromium)を利用して、Redbean, Flye, Shata など様々な既存のゲノムアセンブラーによるアセンブリおよび新規アルゴリズムの検討を行い、針葉樹としては非常に長いコンティグ配列を得ることができた。また、スギゲノムに対して Chromium バーコードを利用した Supernova アセンブラーを利用するための技術改良方法を考案した。また、共同研究者より提供された遺伝学的地図との比較を行い、コンティグと遺伝学的地図の整合性がほぼ取れていることを確認した。 また、ミスアセンブリを減らし、アセンブリをより高速高精度に行うために既存のデータベースを一切用いること無く全ゲノムショットガンリードから新規にゲノム中の反復配列を推定するアルゴリズムを開発した。本手法による情報を組み込むことで将来的に更なるアセンブリ精度の向上が見込まれる。本開発と同時に手作業での反復配列発見とアノテーション作業を行い、自動反復配列発見アルゴリズムの検証に役立つデータベースを一部構築した。 さらに、ゲノムアセンブリのような大規模計算を行うプログラムをより迅速に開発できるようにするため、並列分散計算を行うプログラムを従来より短時間で記述できるようにするライブラリーのプロトタイプを開発した。
|