研究課題
本研究では、各種真核生物において相同組換えの位置を網羅的に特定する手法を開発することを目的としている。本年度はまず、昨年度開発したde novoアセンブリベースの相同組換え位置特定プログラムのプロトタイプ版を用いた検証を実施した。昨年度開発したプログラムは、提案者らが開発したPlatanus/Platanus-alleeと呼ばれる真核ゲノム用アセンブラをベースとし、Illumina シークエンサの高いシークエンス精度を活用し、ハプロタイプ間に存在するSNVや挿入・欠失といった変異の連鎖関係を解くことで、組換えにより生じたパスをとらえるものである。昨年度開発においては、コンピュータ上で擬似的に組換えを起こした線虫などモデル生物のゲノムデータを用いて行っていたが、本年度は昨年度取得したイトマキヒトデ配偶子をプール後シークエンスした実データを用いた検証を行った。これにより、想定外に相同染色体間の差異(SNV)の分布に偏りがあることが明らかとなった。この問題に対しては、通常のpair-endライブラリに加えてmate-pairライブラリを使用することにより、数kbに渡ってSNVが検出されないような領域を跨いだ連鎖関係も解き対応が可能となった。しかし一方で、mate-pairライブラリではシークエンスバイアスがどうしても大きくなる傾向にあることも確認された。この結果を踏まえ、昨年度実施したシミュレーションテストにおける変異間の距離分布や、シークエンスカバレッジ分布をより実サンプルに近いデータへの変更し、昨年度開発したプロトタイププログラムの改良を実施した。改良と検証を繰り返すことで、より精度の高い組換え位置の特定、頻度推定を試みた。また、同一のイトマキヒトデサンプルからLongread(PacBio CLR)データの取得も行い、本開発への組み込みを検討した。
3: やや遅れている
年度始めに計画した、昨年度開発プロトタイプへのイトマキヒトデ実サンプルを用いたテスト、その結果を踏まえた改良・検証に関しては想定通り行うことができたと考えられる。しかし、その一方でよりSNV間の距離が離れたようなヘテロ接合度の低いサンプルへと適用範囲を広げる目的で実施したLongreadを用いた検証では、SNV密度の高いイトマキヒトデにおいてもmate-pairデータと比べて、感度・精度ともに低くならざるを得ない。このため、mate-pairと比べて遠距離間の連鎖を解ける可能性はあるものの、適用は困難な状況である。また、研究開始当初には想定されていなかったこととして、mate-pairライブラリ試薬の発売中止が決まったため、通常のLongread(PacBio CLR, Nanopore)以外の手法を用いてmate-pairの代替を考える必要に迫られている。
最終年度である次年度では、本年度までに開発・改良を重ねてきた相同組換え位置特定プログラムの完成をまずは目指す。本研究課題の実現においては、レアなイベントを検出する関係上、シークエンス精度が重要視され、PacBio(CLR)やNanoporeの低精度なリードでは十分な解析ができないためIlluminaデータの活用、中でも遠距離のSNP間連鎖を解決するためにmate-pairデータを用いてきた。しかし、mate-pairライブラリ調整試薬の販売が予定外に終了してしまったため、次年度に向けて計画の大幅な変更が必要である。急ぎ代替手段を検討しているが、今現在のところ10X ChromiumもしくはTELL-seqの活用を検討している。これらの手法は、数10ー100kb程度DNA断片からIlluminaプラットフォームを用いてランダムにシークエンスするものであり、この際に同一DNA断片からは同一のバーコード付きでシークエンスされる。この情報を活用する手法を本年度まで開発してきたアルゴリムに組み込むことにより組換え位置の特定を目指す予定である。合わせてこれら手法の実データも産出し、検証、改良を行う。プログラム完成後は、本手法を実データに適用し網羅的組換え位置の取得を実現する。
すべて 2020
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件)
Microbiology Resource Announcements
巻: 9 ページ: e00827-20
10.1128/MRA.00827-20