Total RNA-seqを用いることで,新生転写産物を含む細胞中のRNA分子の総量を網羅的に測定する.本研究では,Total RNA-seqのリードパターンからRNA ポリメラーゼ II(以下,Pol II)の転写伸長プロセスを統計的に予測する.Pol II は,転写を触媒する酵素であり,遺伝子上を5’から3’方向に移動しながら段階的にmRNAを合成する.この生体プロセスのことを転写伸長という.転写伸長とスプライシングは共役するため,Total RNA-seqのリード分布には転写伸長速度を反映した鋸状のパターンが出現する.リード分布の特性を支配する主な因子は,ゲノム上のPol IIの存在確率(転写伸長の相対速度の逆数)とスプライシングのパターンである.したがって,逆問題を解き転写伸長速度とスプライスパターンを推定すれば,転写伸長プロセスの予測が可能になる. 本研究では,状態空間モデルに基づくベイズ推論による解法を示した.転写伸長とスプライシングの数理モデルを構築し,Pol IIの存在確率とリード分布の変換式を用いて状態空間表現を導く.このもとでベイズ推定を行い,Pol IIの存在確率とスプライスパターンを同時に推定する.マウスES細胞等,複数のデータに開発手法を適用し,推定された転写伸長の速度分布の妥当性を検証した. ChIP-seq計測から導いたヌクレオソーム占有率やヒストン修飾の状態に速度分布を対応付け,両者の相関性が確認された.現在,論文発表の準備を進めている. これまで転写伸長速度の包括的測定を目的に様々な技術(GRO-seq,NET-seqなど)が開発されてきたが,実験の難しさ・精度・コストの問題があり,広く普及するに至っていない.本研究により,Total RNA-seqという汎用技術とデータ科学を組み合わせることで転写伸長プロセスを再構成できることが実証された.これにより転写伸長研究の新しい可能性が切り拓かれることが期待される.
|