ヘテロ接合性の高いゲノムのアセンブリは、より断片化する傾向にある。断片化されたヘテロ接合度の高いゲノムアセンブリを再アセンブルするツール(Exterm)を構築した。Extermは、各コンティグ末端領域にpaired-end short readsのアライメントを行い、得られたアライメント情報を基にしたlocal assemblyによってコンティグ末端を伸張させ、末端を伸張させたコンティグ同士をoverlap-layout-consensusアルゴリズムを用いて連結する。本過程でミスアセンブリを極力低減させるため、以下の処理を行った (1) コンティグリピート領域のマスク、(2) アライメントしたリードのフィルタリング、(3)伸張させたコンティグ配列が他のコンティグとend-to-endでアライメントされない場合、伸張させた配列の除去、(4) コンティグ同士を連結させたアセンブリ配列に再度paired-end short readsのアライメントを行い、不合理なリードペアのアライメントが認められた際、コンティグの連結を解除する。これらの処理を行わなかった時と比較すると、約95%のミスアセンブリを除去することができた。酵母、線虫、イネの種々のヘテロ接合度を導入した人工アセンブリセットおよびリアルアセンブリセットを用いてExtermの性能を計測したところ、ミスアセンブリの生成を抑えつつ、最大で13倍のN50増加を生じた。
|