2010 Fiscal Year Annual Research Report
次世代DNAシークエンサーを用いたゲノム解読のためのアルゴリズム開発
Project/Area Number |
22700307
|
Research Institution | The University of Tokyo |
Principal Investigator |
笠原 雅弘 東京大学, 大学院・新領域創成科学研究科, 講師 (60376605)
|
Keywords | アルゴリズム / ゲノム |
Research Abstract |
従来のゲノムアセンブリアルゴリズムの中でも実用的な精度の良いアルゴリズムでは計算機上の主記憶にほとんどすべてのリードを格納する必要があるため、シークエンサー側の出力量急増に伴い1台の計算機で使用可能な主記憶量よりワーキングセットが遙かに大きくなり、並列分散計算が必要となった。このため、我々が以前から開発してきたRAMENアセンブラーのコア部分を並列分散計算フレームワークTiny Cloud Engine(TCE)上で走るように移植を試みた。この結果、分散並列ファイルシステムが計算の大きなボトルネックの一つとなることを分かり、TCEの開発に主な問題点をフィードバックした。移植が完成すれば、安価で高速に計算ができるクラスター型の計算機でゲノムアセンブリを行えるようになり、従来と比べてより大きなゲノム配列を決定できるようになる。 また、次世代シークエンサーの中には出力塩基の精度が著しく低いものが見受けられるが、このようなリード配列とコンティグとのマッチングを取るために、穴あきシードとスライドソートを組み合わせた高速・高精度なシーディングアルゴリズムを開発し、理論的な精度を解析した。 また、大規模ゲノムアセンブリでは長距離のコンティグ接続関係を保証するために遺伝学的地図が必要となることが多いが、次世代DNAシークエンサーを用いて遺伝学的地図を短時間・短期間に作製するためのアルゴリズムを開発した。ヒメツリガネゴケを試験対象として、分離集団のゲノムDNAをIllumina GAによりインデクシングを用いてショットガンシークエンシングし、得られたペアエンドシーケンスを参照ゲノム配列と比較してSNPを検出し、連鎖解析に耐えうる頻度・精度のSNPが検出できることを確認した。
|
Research Products
(1 results)