2015 Fiscal Year Research-status Report
エピゲノム比較解析パイプライン高度化のための正規化・統合解析手法の構築
Project/Area Number |
15K18465
|
Research Institution | The University of Tokyo |
Principal Investigator |
中戸 隆一郎 東京大学, 分子細胞生物学研究所, 助教 (60583044)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | Spike-in解析 / ノイズ除去 / 大規模解析 / IHECプロジェクト |
Outline of Annual Research Achievements |
ノイズ除去法について、Spike-in解析を用いたノイズ検出を行った。Spike-in解析とは、ChIPサンプルの比較解析の際、異なる生物種由来のゲノムDNAをreferenceとして全サンプルに等量入れ、シーケンシング後に得られたreferenceリード数を正規化に用いることで、referenceリードが無い場合には検出不可能なピーク強度の変化を測定する手法である。コヒーシン及びCTCFのノックダウンChIP-seq実験の結果、比較するサンプル間で目的タンパクのDNA結合量が大きく異なる場合、免疫沈降によって得られたDNA量に含まれるバックグラウンドリードの割合が大きく異なるが、通常の正規化手法ではバックグラウンドの量は一定であると仮定しているため、過度に増幅されたバックグラウンドがノイズとして現れていることがわかった。これらのノイズはreferenceリードによる除去が可能である。 複数サンプルを統合的に解析する手法の開発について、サンプル間のS/N比の差を考慮した多サンプル比較解析手法を開発した。サンプル調製時の技術的な要因により、複製(replicate)間で得られるピークの強度(S/N比)が大きく変わる場合があるが、通常用いられる正規化手法はS/N比の差は考慮していない。そこで、サンプル間で共通するピーク領域でのピーク強度分布を測定し、その中央値に基づき各サンプルのピーク強度を補正する。同一抗体を用いた解析など、同一領域のピーク強度はサンプル間で一定であると仮定できる場合には、この正規化を用いることで技術的要因によるばらつきに対し頑健な定量的解析を行うことができる。IHECプロジェクトで得られたヒストン修飾データに対し、この手法を用いて組織間サンプルクラスタリングを行った結果、この補正により良好なクラスタリング結果を得た。この成果を現在論文投稿中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Spike-inデータ及びIHECプロジェクトのサンプルを利用して、データ正規化手法、ノイズの検出法、大規模なデータセットの統合解析法について、新規手法を開発し、成果を得ることができた。IHECデータについては得られた成果を現在論文投稿中である。他にも本プログラムを用いた共同研究による成果を論文として発表した [Sutani et al. 2015など]。 更に、多サンプルを用いた大規模なChIP-seq解析に必要な品質評価と解析手法について、これまで得た知見を論文にまとめ公開した[Nakato and Shirahige 2016]。最新の既存論文を体系立てて紹介した本論文は最新のChIP-seq解析のガイドラインとして使われることが強く期待される。 一方、broad peakのヒストン修飾サンプル(H3K9me3など)については、sharp peakのサンプル(H3K27acなど)に比べて偽陽性の検出が困難であり、更なるノイズ検出法の検討が必要である。偽陽性ピークが多発する主要因として、初期DNA量の不足による過度のPCR増幅、GC含量の偏り、抗体の力価の不足、の三つが大きく関係していることがこれまでの実験でわかってきた。一方、これら三要因の相互の関係は未だ明らかではなく、これらの値が全て正常でも多くの偽陽性ピークを持つInputサンプルも存在し、未だ全容は明らかでない。今後さらに検討を進める。
|
Strategy for Future Research Activity |
ノイズの発生要因には、抗体の品質、DNA断片化、サンプル調製者の熟練度など、多くの要因が複合的に関連している。また生体細胞から取得したサンプル、少量細胞のサンプルなどはサンプル調製が困難であることから、培養細胞に比べてデータのクオリティがばらつきやすい。各々のサンプルについて詳細な情報は不明であることも多いため、今後はノイズの生起要因の調査を進めつつ、特に得られたデータの品質評価と正規化手法の確立に注力する。 これまでに開発した品質評価指標及び解析手法の一部は既に我々の開発したDROMPAに組み込まれ、DROMPA3としてgithub上で公開している(https://github.com/rnakato/DROMPA3)。更に、同一細胞株から得られたヒストン修飾H3K4me3とH3K27acを統合的に表示することでゲノム上のプロモーター・エンハンサー領域を可視化できる機能を新たに開発した。今後はこの機能をbroad peakにも広げ、ヘテロクロマチンなども含めたエピゲノムアノテーション可視化手法を確立する。加えて、教師なし機械学習を用いた既存のエピゲノム解析手法を調査し、本プログラムにも適用可能な点を検討する。
|
Research Products
(6 results)
-
-
-
-
-
[Journal Article] Assembly of Slx4 signaling complexes behind DNA replication forks2015
Author(s)
Attila Balint, TaeHyung Kim, David Gallo, Jose Renato Cussiol, Francisco M Bastos de Oliveira, Askar Yimit, Jiongwen Ou, Ryuichiro Nakato, Alexey Gurevich, Katsuhiko Shirahige, Marcus B Smolka, Zhaolei Zhang, Grant W Brown
-
Journal Title
The EMBO Journal
Volume: 34
Pages: 2182-2197
DOI
Peer Reviewed / Int'l Joint Research
-
[Journal Article] Esco1 Acetylates Cohesin via a Mechanism Different from That of Esco22015
Author(s)
Masashi Minamino, Mai Ishibashi, Ryuichiro Nakato, Kazuhiro Akiyama, Hiroshi Tanaka, Yuki Kato, Lumi Negishi, Toru Hirota, Takashi Sutani, Masashige Bando, Katsuhiko Shirahige
-
Journal Title
Current Biology
Volume: 25
Pages: 1694-1706
DOI
Peer Reviewed / Int'l Joint Research