研究課題
望みの強度の転写活性を示すプロモーターの配列を体系的に設計する方法論の確立を目指している。そこでまず、1.プロモーター配列からその転写活性の強度を予測するモデルを開発し、続いて、2.そのモデルを用いて、与えられた転写活性の強度を示すプロモーター配列を探索する手法を開発する。ここでプロモーター配列の設計の精度を左右するのは、1.のモデルの予測精度である。これまでに、3つのセルラインにおけるヒトプロモーター約500個の転写活性の強度をルシフェラーゼレポーターアッセイ系を用いて計測し、これらデータに基づき、プロモーター中の転写因子結合部位(TFBS)を説明変数として転写活性の強度を予測する線形回帰モデルを各セルラインで開発した。これらモデルは、40~60個のTFBSで構成され、計算機上での予測精度の検証(10-分割交差検定)で0.40前後の決定係数を示した。今年度は、まず、このモデルに基づいて、オリジナルのプロモーターの転写活性を約10倍にする12個の人工プロモーターの配列を設計し、これらの転写活性強度を計測した。しかしそれらの値は、オリジナルプロモーターの値は上回るが、10倍には程遠い値であった。その原因を詳しく調べたところ、モデルを構築するために用いたヒトプロモーター約500個の転写活性の強度データには、主成分と呼べるTFBSの組が観察できない、すなわち、プロモーターの転写機構が想像以上に多様であることが明らかになった。そこで、転写機構が基本的に似ていると想定できる転写活性の強度データを計測し、このデータに基づいた転写強度の予測モデルを構築した。具体的には、ヒトEF1aプロモーターに5~10%の点突然変異をランダムに導入した改変プロモーター約300個を生成し、それらの転写活性強度を計測した。このデータに基づいて構築された転写強度の予測モデルは、わずか19個のTFBSで構成されているにも関わらず、10-分割交差検定では0.43の高い決定係数を示した。
2: おおむね順調に進展している
これまでに、プロモーターの転写機構が想像以上に多様であることが明らかになり、ランダムに選ばれた天然プロモーターのセットから転写機構の原理を明らかにすることは極めて難しいと分かった。この困難を克服するために、転写機構が基本的に似ていると想定できるプロモーターのセット、すなわち、ランダムな点突然変異を天然プロモーターに導入した改変プロモーターのセットを用意することに成功した。改変プロモーターのセットに基づいて構築された転写強度の予測モデルは、わずか19個のTFBSで構成されているにも関わらず、10-分割交差検定では0.43の高い決定係数を示した。
まず、改変プロモーターの転写活性データに基づいて構築した転写強度の予測モデルを用い、人工プロモーターの配列を設計し、それらの転写強度の計測を通して予測モデルの信頼性を検証する。また、TSSseqやRNAseqによって細胞内の転写因子のコピー数を計測し、予測モデルに含まれるTFBSとの一貫性を考察するとともに、モデルの改良にも役立てる。さらに、改変プロモーターの転写強度のデータを充実させ、より複雑な条件におけるプロモーター配列の設計に挑むとともに、転写機構の原理に迫る。
すべて 2012 2011
すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (2件)
Bioinformatics
巻: 28 ページ: 25-31
10.1093/bioinformatics/btr606
Nucl. Acids Res.
巻: 39 ページ: e35
DOI:10.1093/nar/gkr173
Genome Inform
巻: 25 ページ: 53-60
https://www.jstage.jst.go.jp/article/gi/25/1/25_1_53/_pdf