2016 Fiscal Year Research-status Report
エピゲノム比較解析パイプライン高度化のための正規化・統合解析手法の構築
Project/Area Number |
15K18465
|
Research Institution | The University of Tokyo |
Principal Investigator |
中戸 隆一郎 東京大学, 分子細胞生物学研究所, 助教 (60583044)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | ChIP-seq法 / 品質評価 / 大規模解析 |
Outline of Annual Research Achievements |
ChIP-seqサンプルの品質評価のための新規手法"SSP"を開発した(https://github.com/rnakato/SSP)。本手法は、順鎖・逆鎖それぞれにマップされたリードの相関の強さをJaccard indexを利用して計測し、strand-shift profileを描画することで、「抗体の力価(S/N比)」、「ピークの信頼性」をこれまでよりも頑健に推定することができる。 従来の品質評価手法では、broad mark(H3K9me3ヒストン修飾など)のS/N比を評価できない、スコアの値がサンプルのリード数に依存するなどの課題があった。それに対して本手法は、リード数非依存的にsharp/broad両方のS/N比を頑健かつ感度良く評価することが可能である。また、従来のS/N比評価手法は、得られたピークの信頼性(ノイズピークをどの程度含むか)については評価できなかった。これに対し本手法では、ピーク領域でないバックグラウンドでのマップリードのばらつきを定量化した"background uniformity"スコアにより、サンプルから得られたピークの信頼性を評価することができる。これにより、従来のサンプル冗長度やGC含量の偏りなどでは分類できなかった低品質サンプルを検出することが可能となった。この成果は大規模ChIP-seq解析のための品質評価パイプラインの効率・精度を向上させるものである。 この成果について、現在論文準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
SSPをENCODE, ROADMAP projects など大規模プロジェクトで生産されたエピゲノムデータに適用した結果、これらの中にも一定数の低品質データが含まれることが分かってきた。また、IHECデータを用いたエピゲノム比較解析パイプラインの開発を進めていく中で、生体細胞などでは培養細胞系に比べ、全てのサンプルを高品質に揃えることが難しい。大量のサンプルを扱う大規模ChIP-seq解析では各サンプルの品質及び特性を、手作業でチェックすることなしに自動評価できる品質定量化が非常に重要であるにもかかわらず、従来の品質評価法では各サンプルの特性を充分定量化することが難しかった。 本申請ではかかる観点から、新たな品質評価プログラムを開発するに至った。本手法を既存のパイプラインに組み込み、サンプルの品質を揃えることで、より信頼性の高い大規模解析を進めることができる。
|
Strategy for Future Research Activity |
開発した手法"SSP"について、論文を投稿し発表する。昨年度開発し報告した「サンプル感のS/N比の差を考慮した多サンプル比較解析手法」と併せ、大規模ChIP-seq解析に必要な品質評価と定量化手法については完了したと考えている。 今後は高品質に保たれたデータをピックアップし、broad markを含めた複数ChIP-seqサンプルの統合比較によるエピゲノムアノテーションプログラムの開発を引き続き進める。近年はHi-Cデータなどの立体構造データなども多数利用可能になっていることから、これらのデータも含めることで統合解析の精度を向上させることができるかどうかについても検討する。 同時に、得られた成果をまとめたWebページを作成し、社会に還元する。
|