近年は、ゲノム配列決定方法として全ゲノムショットガン法が主に使われてきた。ゲノムサイズが小さい、ポリモルフィズムが少ない等の条件を満たす生物種に対しては大きな問題が存在していなかったが、モデル生物以外が配列決定の対象となるにつれ、全ゲノムショットガン法ではアセンブルが難しい生物種も配列決定の対象となるようになってきた。 このような全ゲノムアセンブリ問題に際しては、ショットガンリード間アラインメントの塩基相違において、シークエンシングエラーとリピート配列間の変異を見分けることが重要であることを見いだし、また見分けるための条件を発見した。 米国JGIで得られたナメクジウオゲノム配列のショットガンリード配列を、以前から開発しているRAMENアセンブラを用いて実際にアセンブルし、ハプロタイプ間のポリモルフィズムが従来知られている生物のレベルと比べて非常に大きく、従来知られているアセンブリアルゴリズムではゲノム配列を復元できないことを見いだした。 ハプロタイプ間にはショットガンリードの長さを超える挿入・欠失が随所に見られ、比較的多型の少ない種と比べて格段にハプロタイプのマージが難しく、ゲノム配列をリニアなものとして捉えて二つのハプロタイプをマージしマルチプルアラインメントする戦略を適用しては精度の良いアセンブルができないことを見いだした。 上記の知見を元に、全ゲノムアセンブリ問題を解くためのアルゴリズムの枠組みを一部再構築し、増大した必要計算量を抑えるべく接尾辞配列と呼ばれるデータ構造を用いた相同性検索法を検討し、ゲノムアセンブリ問題に対してはライトウェイト法と呼ばれる接尾辞配列構築アルゴリズムが最も速度的に適していることを見いだした。 また、最終的にアルゴリズムを大規模問題に適用するためには複数の計算機による並列計算が必要であり、並列化のために必要な技術的手法を検討・実装した。
|