プロモーターの塩基配列が転写活性に与える影響(プロモーター配列に潜む転写調節コード)を詳らかにすることは、転写サイクルの制御機構を明らかにするための中心的な研究課題のひとつである。ENCODEプロジェクト(https://www.encodeproject.org/)では、潤沢なヒトオミックスデータを用い、プロモーター中の機能的な転写因子の結合部位を明らかにし、転写因子結合部位の解像度でプロモーターの転写活性を推定する統計モデルを構築した。ここでは、次世代シークエンサを用いて取得した大量の変異型プロモーターの塩基配列と転写活性のデータを情報科学的に解析することで、ヒトプロモーター配列に潜む転写調節コードを明らかにし、その普遍性と多様性の実像に迫る。ここでは、プロモーター中の機能的な転写因子の結合部位に加え、潜在的な転写因子の結合部位を明らかにする。さらに、1塩基レベルの解像度でプロモーターの転写活性を推定する。
転写調節コードをプロファイリングする手順を以下に記す。まず、野生型プロモーターに数%のランダムな変異を導入した数万種類の変異型プロモーターを作り出し、それらの塩基配列と培養細胞における転写活性のデータを次世代シークエンサーを用いて取得する。次に、このデータを情報科学的に解析することで、プロモーターに潜む転写因子の結合部位を同定するとともに、それらの塩基配列とそれらの間の距離に基づいてプロモーターの転写活性を推定する統計モデルを導出する。このモデルは、大量のデータから導出されるので、1塩基デベルの解像度で転写活性を推定する。また、変異型プロモーターのデータを用いるため、野生型プロモーター中の機能的な転写因子の結合部位に加え、潜在的な転写因子の結合部位を明らかにする。さらに、このモデルに基づく野生型プロモーターの塩基配列の改変を実現する。
|