望みの培養細胞で望みの転写強度を持つプロモーターの塩基配列を体系的に設計する手法を考察した。ここでは、与えられた培養細胞について、与えられたプロモーター配列の転写強度を推定するモデルを導出し、次に、このモデルを用いて望みの転写強度を示すプロモーターの塩基配列を探索した。 転写強度の推定モデルを導出するデータを生成するために、ハイスループットなプロモーター解析を行なう実験系を構築した。プロモーター解析は、プロモーターの転写活性の測定と塩基配列の決定から成る。実験にはプラスミド中のレポーター遺伝子の3'UTR中にランダムな12塩基を挿入したライブラリーを用い、ランダム12塩基をバーコードタグとしてプロモーターとの対応付けに用いた。Error-prone PCRにより、1~4%のランダムな突然変異を導入したヒトプロモーターライブラリーを作成し、ヒト培養細胞における転写活性を測定した。レポーター遺伝子のcDNAからタグ配列を決定し、タグ配列のリード数を計測して転写活性の指標とした。プロモーター配列の決定では、paired-end sequencingにより、read1でプロモーター、read2でタグの配列を決定した。このプロモーター解析では、数万種類のプロモーターに関する転写活性と塩基配列の情報を取得することができる。 転写強度の推定モデルとして、線形回帰モデルを採用した。目的変数はプロモーターの転写強度、説明変数はプロモーターの各位置における各塩基である。ただし、説明変数は、bootstrap LASSOにより選択されている。ここでは、線形回帰モデルの記述力の乏しさを補うために、複数の線形回帰モデルを導出した。この試みにより、プロモーター解析の大部分のデータの転写強度を高い相関係数で推定することに成功し、野生型から~5%程度の塩基を改変したプロモーター配列の設計を実現した。
|