研究領域 | 高精細アプローチで迫る転写サイクル機構の統一的理解 |
研究課題/領域番号 |
15H01358
|
研究機関 | 九州工業大学 |
研究代表者 |
矢田 哲士 九州工業大学, 大学院情報工学研究院, 教授 (10322728)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | バイオインフォマティクス / ゲノム解析技術 / 遺伝子発現調節 |
研究実績の概要 |
プロモーターの塩基配列が転写活性に与える影響(プロモーター配列に潜む転写調節コード)を詳らかにすることは、転写サイクルの制御機構を明らかにするための中心的な研究課題のひとつである。ENCODEプロジェクトでは、潤沢なヒトオミックスデータを用い、プロモーター中の機能的な転写因子の結合部位を明らかにし、転写因子の結合部位の解像度でプロモーターの転写活性を推定するモデルを構築した。ここでは、次世代シークエンサーを用いて取得した大量の変異型プロモーターの塩基配列と転写活性のデータを情報科学的に解析することで、ヒトプロモーター配列に潜む転写調節コードを明らかにし、その普遍性と多様性の実像に迫る。ここでは、プロモーター中の機能的な転写因子の結合部位に加え、潜在的な転写因子の結合部位を明らかにする。さらに、1塩基レベルの解像度でプロモーターの転写活性を推定する。
転写調節コードをプロファイリングする手順を以下に記す。まず、野生型のプロモーターに数%のランダムな変異を導入した数万種類の変異型プロモーターを作り出し、それらの塩基配列と培養細胞における転写活性のデータを次世代シークエンサーを用いて取得する。次に、このデータを情報科学的に解析することで、プロモーターに潜む転写因子の結合部位を同定するとともに、その塩基配列とそれらの間の距離に基づいてプロモーターの転写活性を推定する回帰モデルを導出する。このモデルは、大量のデータから導出されるため、1塩基レベルの解像度で転写活性を推定することができる。また、変異型プロモーターのデータを用いるため、野生型プロモーター中の機能的な転写因子の結合部位に加え、潜在的な転写因子の結合部位を明らかにすることができる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
一般に、真核生物のプロモーターは、GC-richとGC-poor、TATA-containingとTATA-lessにより、大きく4つに分類することができる。これまでに、これらの4つの分類をカバーする代表的な12種類の野生型プロモーターについて、各々で数万種類の変異型を用意し、それらの塩基配列と培養細胞HEK293における転写強度を測定した。さらに、これらのデータに基づいて転写強度を推定する回帰モデルを導出し、計算機実験によってそれらの回帰性能を評価した。
EEF1A1プロモーターは、HEK293で強い転写強度を示すGC-richでTATA-containingなプロモーターとして知られている。EEF1A1プロモーターの転写強度の回帰モデルの性能を実験的に評価するために、この回帰モデルに基づいてEEF1A1プロモーターの塩基配列を改変し、HEK293での転写強度を更に高めることを試みた。すると、改変プロモーターの転写強度の設計値と実測値の回帰直線として、y=0.96x-0.09(ほぼy=x)が得られた。これは、この回帰モデルがEEF1A1プロモーターに潜む転写調節コードをモデル化していることを示している。
一方、計算機実験では、12種類の野生型プロモーターのほぼ半数の回帰モデルでEEF1A1プロモーターの回帰モデルと同等の性能が確認され、残りの半数では、その性能を下回った。このばらつきは、GC含量の値やTATA boxの存在とは関係なく、培養細胞における野生型プロモーターの転写強度の強さに依存している。すなわち、転写強度が強い野生型プロモーターでは良好な回帰モデルを導出できるが、転写強度が弱い野生型プロモーターでは良好な回帰モデルを導出できない。野生型プロモーターに導入される変異の大部分は転写活性を低下させることを踏まえると、これは、転写活性のダイナミックレンジが大きいデータセットでは良好な回帰モデルを導出できるが、そうでない場合は良好な回帰モデルを導出できないことを示している。
|
今後の研究の推進方策 |
まず、(1)計算機実験で、EEF1A1プロモーターと同等の回帰性能が確認された野生型プロモーターについて、各々の回帰モデルに基づいて野生型プロモーターの塩基配列を改変し、改変プロモーター配列の合成と転写活性の測定を通して転写調節コードのモデル化技術を評価する。また、(2)計算機実験で、EEF1A1プロモーターと同等の回帰性能が確認できなかった野生型プロモーターについて、次世代シークエンサー解析と情報科学解析の両方を見直す。以上の試みを通じ、(3)転写調節コードをプロモーター間で比較して、その普遍性と多様性の実像に迫る。さらに、(4)ある野生型プロモーターを構成する転写因子の結合部位とそれらの間のスペーサ領域がさまざまな並びで連なるとき、どのような実験系と解析系を確立すれば、その転写調節コードを明らかにできるのか、また、(5)変異解析を積極的に用いることでエピゲノムコードを明らかにするには、どのような実験系と解析系を確立すれば良いのかを考察する。
|