2020 Fiscal Year Annual Research Report
Method for sequencing and analyzing huge plant genomes
Project/Area Number |
20H03239
|
Research Institution | The University of Tokyo |
Principal Investigator |
笠原 雅弘 東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | ゲノムアセンブリ / アルゴリズム / 植物ゲノム / ロングリード / 反復配列 |
Outline of Annual Research Achievements |
反復配列に富みゲノムサイズが極めて大きい(11Gbp)植物ゲノムとしてスギゲノムを選び、反復配列に富むゲノムのアセンブリを行う様々な方法やアルゴリズムについて検討を行った。共同研究者により以前からシークエンスを提供されていた、あるいは本年度に新たにシークエンスを行ったロングリード(PacBio RS II, PacBio Sequel I, PacBio Sequel II, Oxford Nanopore PromethION)およびショートリード( Illumina, 10X Chromium)を利用して、Redbean, Flye, Shata など様々な既存のゲノムアセンブラーによるアセンブリおよび新規アルゴリズムの検討を行い、針葉樹としては非常に長いコンティグ配列を得ることができた。また、スギゲノムに対して Chromium バーコードを利用した Supernova アセンブラーを利用するための技術改良方法を考案した。また、共同研究者より提供された遺伝学的地図との比較を行い、コンティグと遺伝学的地図の整合性がほぼ取れていることを確認した。 また、ミスアセンブリを減らし、アセンブリをより高速高精度に行うために既存のデータベースを一切用いること無く全ゲノムショットガンリードから新規にゲノム中の反復配列を推定するアルゴリズムを開発した。本手法による情報を組み込むことで将来的に更なるアセンブリ精度の向上が見込まれる。本開発と同時に手作業での反復配列発見とアノテーション作業を行い、自動反復配列発見アルゴリズムの検証に役立つデータベースを一部構築した。 さらに、ゲノムアセンブリのような大規模計算を行うプログラムをより迅速に開発できるようにするため、並列分散計算を行うプログラムを従来より短時間で記述できるようにするライブラリーのプロトタイプを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究申請時には予想していなかった様々な新しい技術を用いたシークエンサー等が登場し、Oxford Nanopore Technologies 社のPromethION を用いてDNAを読んで得られた植物ゲノムにおいては世界最長クラスのロングリードデータや、PacBio Sequel IIシークエンサーを用いた極めて精度の高い Hi-Fi リードが入手できるようになど、利用出来るデータの種類が大きく増えたため、事前に想定していたよりより多くの手法やアルゴリズムが適用可能であることが分かり、さまざまな新しい知見が生まれた。このため、巨大な植物ゲノムを決定するための手法開発としては事前の予想より大きく進展していると言える。ただし、コロナ禍にともなう大学の混乱や在宅勤務によるコミュニケーションコストの増大と研究効率の低下もあったため、総合的には「おおむね順調に進展している」と評価した。
|
Strategy for Future Research Activity |
引き続きアルゴリズム面およびソフトウェア実装の改良を進めて、より長く精度の高いコンティグを出力できるように改良を進めたい。また、DNAシークエンサーの出力以外をゲノムアセンブリのプロセスに統合していく。 さらに将来的には他の針葉樹ゲノムをはじめとして他にも産業上あるいは生物学上重要である植物種について生み出したアルゴリズムを応用しゲノム配列決定を行っていく。
|