2021 Fiscal Year Annual Research Report
Method for sequencing and analyzing huge plant genomes
Project/Area Number |
20H03239
|
Research Institution | The University of Tokyo |
Principal Investigator |
笠原 雅弘 東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | ゲノムアセンブリ / アルゴリズム / 植物ゲノム / ロングリード / 反復配列 |
Outline of Annual Research Achievements |
反復配列に富みゲノムサイズが極めて大きい(11Gbp)植物ゲノムとしてスギゲノムを選び、共同研究者により以前からシークエンスを提供されていた、あるいは本年度に新たにシークエンスを行ったロングリード配列から、様々な戦略を用いてゲノムアセンブリを行い比較した。その中で最も成績が良かったゲノムアセンブリ結果は、知る限りでは針葉樹ゲノムとして世界最長のコンティグ配列を得ることができた。また、共同研究者より提供された遺伝学的地図との比較を行い、得られたコンティグと遺伝学的地図の整合性が極めて高いことを確認した。また、共同研究者と共にHi-C解析を用いてコンティグを整列し、約9割の塩基配列を染色体上に関連づけることができた。この結果により、巨大な植物ゲノムであっても一定の戦略でゲノム配列を染色体レベルで決定できることが示唆された。 反復配列に富む植物ゲノムの解析においては反復配列の同定が非常に大事であるが、ロングリードのアラインメントを用いた反復配列の同定手法を改良した。また、Gypsy/Copiaについては個別の解析を行った。反復配列のマスキングを並列化するソフトウェアを作成した。 また、ゲノムアセンブリのような、メモリーを大量に使用する大規模計算を行うプログラムをより迅速に開発できるようにするため、並列分散計算を行うプログラムを従来より短時間で記述できるようにするライブラリーのプロトタイプを昨年度開発したが、引き続いて改良を行い実用度を高めた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
研究申請当時には予想していなかった様々な新しい技術が登場し、巨大なゲノムの解読を行う手法開発は大きく進展した。PacBio Sequel II シークエンサーを用いた極めて精度の高い Hi-Fi リードが巨大ゲノム解読に非常に大きな力となることが判明し、また、Oxford Nanopore Technologies 社のPromethION は試薬の改良やベースコールアルゴリズムの改良によりリード長や塩基精度に大きな改善が見られたことも原動力となった。また、巨大ゲノムのゲノムアノテーションも計算の並列化を行う手法の知見を得られた。必要な試薬の予算さえあれば巨大な植物ゲノムを決定・解析することは(二倍体ゲノムであれば)ルーチンとは言わないまでも簡単になったと言ってよく、当初の目的は達成された。
|
Strategy for Future Research Activity |
引き続きアルゴリズム面およびソフトウェア実装の改良を進めて、手作業によるステップを減らし、より長く精度の高いコンティグを全自動で出力できるようにアルゴリズムやワークフローの改良を進めたい。 さらに将来的には他の針葉樹ゲノムをはじめとして他にも産業上あるいは生物学上重要である植物種について生み出したアルゴリズムを応用しゲノム配列決定を行っていく。
|