超並列DNAシークエンサーはリード長が短いために、全ゲノムショットガンシークエンシングによって得られる解読したゲノム配列連続断片の長さが短くなりがちであり、染色体レベルの比較ゲノム解析やポジショナルクローニング等を行うことは難しかった。また、ゲノム配列連続断片と染色体との関連づけを行うためには長い期間を掛けて追加の実験を行い、染色体地図を別途作る必要があった。そこで本研究ではゲノム配列連続断の多くを染色体上にマップするために、超並列DNAシークエンサー(Illumina)を用いて従来比で極めて短期間に超高密度(平均数kb/マーカー)の遺伝学的地図を作成するアルゴリズムを開発した。 実データとしてヒメツリガネゴケの異なる2系統を掛け合わせた分離集団のうち約200個体弱から抽出したゲノムDNAを薄く全ゲノムショットガンシークエンシングしたデータを用いた。本アルゴリズムでは参照ゲノムへのアラインメント後に様々なフィルター条件を用いて確度が高いと考えられるSNP 情報を抽出し、その後シークエンシングエラーによるミスタイピングなどの補正を行ったのちに参照ゲノム上でミスアセンブルの疑いがある箇所を切断し、最後に反復的アルゴリズムによりウルトラコンティグの結合を繰り返して比較的少ない数の連鎖群を得る。実データを用いた解析では、連鎖群が知られている染色体数付近まで落ちてくるとともにウルトラコンティグの結合を行う際の距離が急激に長くなることが分かり、本アルゴリズムによる処理結果には一定の信憑性があることが示唆された。
|