研究概要 |
ヒトをはじめ、酵母、線虫、昆虫、植物においてそれぞれを代表する生物種の全ゲノム配列が決定された。複数の真核生物ゲノム配列の比較を通じて、そこに書き込まれた高次の情報を読み解くことを目的とする。 スプライシングシグナル定量化の基となるエクソン・イントロン境界データを大量に得るため、ゲノム配列とそれに由来するcDNAあるいはEST配列との比較を効率よく行うプログラムをまず作成した。様々な原因に由来するノイズの除去が予想外に大きな問題であったが、ヒト、C.elegans、D.melanogaster、A.thalianaそれぞれ16,000〜30,000の独立したイントロン挿入位置が同定できた。得られたスプライシング境界近傍についてサイト間の塩基分布の相関を検討した。イントロン5境界近傍には、4生物種を通して類似した特徴的なパターンが見出された。一方、イントロンの長さの分布にはそれぞれの生物種毎にかなりの差違が見られた。 同一ゲノム上に多数のパラログを擁する多重遺伝子族の遺伝子構造を共同的に予測する手法の完全自動化を試みた。まだ改良すべき点は残るものの、人手による介入を大幅に削減出来ることが示せた。 いくつかのゲノムプロジェクトの完了がアナウンスされたが、配列そのものおよびアノテーションの質についての検討はこれからである。この研究の目的の一つは比較ゲノム情報解析を通じてアノテーションの精度を高めることである。薬物代謝酵素など実用上重要な遺伝子族については独自の予測結果を順次公開していく予定である。一方、転写や翻訳の開始・終了、スプライシングシグナルの特徴、また遺伝子上のイントロンの密度や長さの分布などは、真核生物ゲノムの進化を考える上で重要な要素となる。本研究の成果はより高次のレベルの生命情報解析の基盤になるものと期待される。
|