転写因子認識配列の多様性を捉えることは、複雑な遺伝子発現制御機構を紐解く上で重要である。そして、公共ChIP-seqデータを統合した二次データベースの整備により、転写因子結合部位の情報を網羅的に得やすくなった。一方で、転写因子認識配列のデータベースは、位置特異的重み行列(PWM)を用いた方法が主流であり、ゲノム上の局所的な配列情報が失われる問題があった。本研究課題では、PWMでは捉えられなかった転写因子認識配列の多様性を捉えることを目指し、ChIP-Atlasに集約された約10万のChIP-seqデータに対して我々が開発したMOCCSを適用した。MOCCSではChIP-seqデータのピーク情報から、ゲノム上の塩基配列情報を損失せずに、転写因子認識配列とその結合特異性スコアをk-merごとに算出できる。様々な細胞型における各転写因子の認識配列とその結合特異性スコアを解析し、細胞型ごとの転写因子認識配列の多様性が明らかとなった。本研究結果で得られた知見は、転写因子を標的とした創薬など応用できる可能性があり、創薬へも貢献し得る。そして、本研究結果で得られた知見を社会発信するために、現在、生物種や細胞型による転写因子認識配列の多様性を閲覧・比較できるデータベースを構築している。論文投稿の準備も行っている。本研究課題の期間終了後も、種間・細胞型間の転写因子認識配列の比較と転写調節共益因子の同定や変異の影響予測などの応用を目指す。
|