2009 Fiscal Year Annual Research Report
大規模5'端配列を用いた転写制御の解明及びデータベースの構築
Project/Area Number |
21710210
|
Research Institution | The University of Tokyo |
Principal Investigator |
山下 理宇 The University of Tokyo, 医科学研究所, 特任助教 (10401259)
|
Keywords | DBTSS / 次世代シークエンサー / 大規模データ / 転写制御 / データベース / 転写開始点 / 比較ゲノム / トランスクリプトーム |
Research Abstract |
本研究では、大規模シークエンサー(SOLEXA)由来の5'端EST配列を用いて、転写開始点データベースDBTSSのさらなる拡張とそれを利用したヒトの転写制御情報の網羅的解析を目的としている。平成21年度は、データ処理のパイプラインの作成とデータベースの拡充に重点を置いた。まず、短い配列のマッピング方法と整理方法のパイプラインを作成し、それに基づき12細胞種・実験条件由来の大規模5'端EST配列をゲノムにマッピングした。このEST配列の5'端のゲノム上座標から転写開始点を同定した。これらの転写開始点を500bp内に存在するものは、一つの転写開始点クラスターを成していると見なし、転写開始点クラスターと定義した。転写開始点クラスターが既知遺伝子の第一エクソン以外のエクソン上のみに存在する場合には、完全長ではないmRNAを取った可能性がある。従って、そのようなデータをnon-confident、それ以外をconfidentな転写開始点クラスターとしてアノテーションした。さらに、一つのTSC内に存在する配列数をそのTSCの発現量と定義し、mRNAの発現量を見積もった。これらの転写開始点クラスターを各データセットに対して対応付けを行い、実験条件や細胞の違いによって発現量の比較を容易にできるようなテーブルを作成した。 この転写開始点クラスターが既知のmRNA上に観察されない例が6309存在し、これらは別途解析を行い、近傍の遺伝子との発現相関を見いだした。また、既知のnon-coding RNAとその上流付近に存在する転写開始点クラスターの対応付けを行い、non-coding RNAの転写開始点の推定を行った。これらの結果はデータベースDBTSSに統合し、一般に公開している(http://dbtss.hgc.jp)。
|