本年度は、昨年度構築したプロトコルをさらに改良すべく新たなSOLiD/Solexaデータを取得し、それらのデータを用いてChIP-seq情報解析プログラムの改良開発を実施した。特に、昨年度実施ができなかった繰り返し配列へのアクセスを中心にプログラムの開発を行った。実施計画策定当時は、mate-pairシークエンスを実施し、両エンドが想定される距離を隔てたゲノム上にマッピングされるデータのみを取得することで繰り返し配列への一意な帰属ができると予想していたが、mate-pairシークエンスのためにはDNA量が多く必要であり、ChIP-seq解析で必要量を得るためには大幅な増幅が必要であることが判明した。しかし、増幅したDNAを用いた解析結果では非特異的な増幅が起こっており、非実用的であることが確認された。Pair-endシークエンスを利用した解析も検討されたが、reverse側のシークエンス精度が悪く両端のデータが揃う率が極めて低いため見送った。このため、fragmentのデータを利用しマルチヒットしたタグを各領域に均等に分配して解析することで繰り返し配列へのアクセスを可能とした。結果を見ると繰り返し配列前後との間でEnrichmentの分布が連続的であるため、この方法の有用性が示された。 一方、高等真核生物への適応は根本的にデータタグ数が少ないため、同様の手法では統計的優位性を示すのが困難であり、完全に対応した解析プロトコルは次年度以降も引き続き開発する必要がある。なお、上記開発プロトコルはNature. 2011 Mar 17 ; 471 (7338):392-6の解析に用いられた。
|