昨年度までは、転写因子結合量とmRNA転写量の統計モデル、物理化学モデルの構築を進めてきた。今年度は、さらに統計モデル、物理化学モデルの理論的研究を進めた。統計モデルとしては、ChIP-sequencing (ChIP-seq)のシーケンスリードから、転写因子の結合位置、量、近隣遺伝子への割り当てを、同時にモデル化し推定する方法を研究した。この方法では、結合位置、量、近隣遺伝子への割り当ての確率の線形結合を考えることで、この3つを同時に推定する方法である。 また、遺伝子とChIP-seqで得られたピークを対応付ける方法について、比較検討した。遺伝子とChIP-seqのピークの割り当て方法には、次のような方法が考えられる。1つのピークを周辺遺伝子すべてに影響すると考えるか、遺伝子に近隣のピークのみを割り当てるか、あるいは、近隣のピークを統合して割り当てるか、割り当てる際に転写開始点、転写終了点との距離を考慮するか、などである。これらの方法を統計解析言語Rで実装し、性能を比較した。その結果、複数のピークを距離に応じて、近隣の遺伝子すべてに割り当てる方法が、もっともmRNAの発現量を表現することがわかった。遺伝子とピークの割り当てがより正確になったため、データを転写の統計モデル、物理化学モデルに当てはめることで、正確に転写因子結合と転写の関係を説明できるようになった。現在、この知見をまとめた論文を準備中である。
|