Project/Area Number |
20H03239
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 43060:System genome science-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
笠原 雅弘 東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Granted (Fiscal Year 2021)
|
Budget Amount *help |
¥17,550,000 (Direct Cost: ¥13,500,000、Indirect Cost: ¥4,050,000)
Fiscal Year 2022: ¥5,720,000 (Direct Cost: ¥4,400,000、Indirect Cost: ¥1,320,000)
Fiscal Year 2021: ¥5,720,000 (Direct Cost: ¥4,400,000、Indirect Cost: ¥1,320,000)
Fiscal Year 2020: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
|
Keywords | ゲノムアセンブリ / 長鎖DNAシークエンサー / 植物ゲノム / 反復配列 / アルゴリズム / ロングリード |
Outline of Research at the Start |
長鎖DNAシークエンサーの登場により、動物のゲノム配列は高精度・高連続度で比較的簡単に決定できるようになった。しかし、植物のゲノム配列は動物より概して大きく、大量の反復配列が含まれている種も数多いためゲノム配列決定の難易度が高い。 そこで本研究では、大量の反復配列が含まれる植物種のゲノムから長鎖DNAシークエンサーを用いて読み取った大量のゲノム断片配列を繋ぎ合わせ、元のゲノム配列を高精度・高連続度で推定する新規ゲノムアセンブリアルゴリズムを開発する。本研究により産業上の多くの植物有用種に対してゲノム解析を新たに可能とすることを目指す。
|
Outline of Annual Research Achievements |
反復配列に富みゲノムサイズが極めて大きい(11Gbp)植物ゲノムとしてスギゲノムを選び、反復配列に富むゲノムのアセンブリを行う様々な方法やアルゴリズムについて検討を行った。共同研究者により以前からシークエンスを提供されていた、あるいは本年度に新たにシークエンスを行ったロングリード(PacBio RS II, PacBio Sequel I, PacBio Sequel II, Oxford Nanopore PromethION)およびショートリード( Illumina, 10X Chromium)を利用して、Redbean, Flye, Shata など様々な既存のゲノムアセンブラーによるアセンブリおよび新規アルゴリズムの検討を行い、針葉樹としては非常に長いコンティグ配列を得ることができた。また、スギゲノムに対して Chromium バーコードを利用した Supernova アセンブラーを利用するための技術改良方法を考案した。また、共同研究者より提供された遺伝学的地図との比較を行い、コンティグと遺伝学的地図の整合性がほぼ取れていることを確認した。 また、ミスアセンブリを減らし、アセンブリをより高速高精度に行うために既存のデータベースを一切用いること無く全ゲノムショットガンリードから新規にゲノム中の反復配列を推定するアルゴリズムを開発した。本手法による情報を組み込むことで将来的に更なるアセンブリ精度の向上が見込まれる。本開発と同時に手作業での反復配列発見とアノテーション作業を行い、自動反復配列発見アルゴリズムの検証に役立つデータベースを一部構築した。 さらに、ゲノムアセンブリのような大規模計算を行うプログラムをより迅速に開発できるようにするため、並列分散計算を行うプログラムを従来より短時間で記述できるようにするライブラリーのプロトタイプを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究申請時には予想していなかった様々な新しい技術を用いたシークエンサー等が登場し、Oxford Nanopore Technologies 社のPromethION を用いてDNAを読んで得られた植物ゲノムにおいては世界最長クラスのロングリードデータや、PacBio Sequel IIシークエンサーを用いた極めて精度の高い Hi-Fi リードが入手できるようになど、利用出来るデータの種類が大きく増えたため、事前に想定していたよりより多くの手法やアルゴリズムが適用可能であることが分かり、さまざまな新しい知見が生まれた。このため、巨大な植物ゲノムを決定するための手法開発としては事前の予想より大きく進展していると言える。ただし、コロナ禍にともなう大学の混乱や在宅勤務によるコミュニケーションコストの増大と研究効率の低下もあったため、総合的には「おおむね順調に進展している」と評価した。
|
Strategy for Future Research Activity |
引き続きアルゴリズム面およびソフトウェア実装の改良を進めて、より長く精度の高いコンティグを出力できるように改良を進めたい。また、DNAシークエンサーの出力以外をゲノムアセンブリのプロセスに統合していく。 さらに将来的には他の針葉樹ゲノムをはじめとして他にも産業上あるいは生物学上重要である植物種について生み出したアルゴリズムを応用しゲノム配列決定を行っていく。
|