初めに、大量のゲノムDNA配列を短時間で比較するために、備品として購入したAlphaStation DS20E上に、最新のゲノムDNA配列データを公共データベースから定期的に自動で収集管理するシステムを構築した。この自動データ収集システムを用いて、ヒト、類人猿、霊長類、マウスなどを含むその他の哺乳類、ニワトリ、アフリカツメガエル、フグ、ショウジョウバエ、線虫、酵母、植物等の、真核生物のゲノムデータを定期的に収集し種毎に整理する。現在のところ、ヒトを除いた脊椎動物に限った場合、800メガ塩基対相当のデータが蓄積されている。この収集されたゲノムDNA配列データを種内・種間で高速で自動比較するために、配列データを一旦加工した後、BLASTを用いて総当りの比較を行い、保存領域に関する情報を蓄積するシステムを構築した。比較解析データには、保存領域に関する、配列、保存度、ゲノム上あるは配列データ上での位置と方向などが含まれる。比較解析結果から生物学的意味を抽出するために、まず、保存領域を含む遺伝子に関する情報をゲノムデータから抽出する。遺伝子に関する情報には、遺伝子内での位置、エクソン/イントロンの区別、遺伝子の機能が含まれる。保存領域の、遺伝子との関係を見ることにより、保存領域が持つ機能の範囲を限定する。続いて、保存領域の中から、遺伝子内に見出されないもの、つまり遺伝子によって機能が限定されないものを選別する。その中で、CpG島の条件を満たすものを転写制御関連構造として機能分類し、更に、残ったものから遺伝子の近傍に存在する保存領域を抽出して、準転写制御関連構造とする。この手続きを通して、例えば、ヒトとフグといった比較的遠縁な種間においても、遺伝子のエクソン以外の保存領域がゲノム上に多数存在していることが明らかになってきた。また、種内比較によって、高等真核生物ゲノムは、セントロメアやテロメア近傍においておびただしい数のゲノム内重複を蓄積しており、その他でも多くの領域重複が見出され、反復配列以外にも多くの冗長な構造を高等真核生物ゲノムが内包していることが明らかになった。これらの重複構造は、高等真核生物の複雑な構造形成にとって必要であったと考えられるので、重複構造の進化様式を探ることにより、個体発生機構の解明が進められる可能性が示唆された。
|