GenBank Release78のgbbct.seqより大腸菌由来の登録データを取り出し、K12株の染色体由来のものの選別を行った。大腸菌K12株のデータは2169エントリーであり、その総塩基数は4044484塩基対にのぼる。これらのデータから相同性検索プログラム、blastにより重複部分の検索を行い、全てのデータから重複を除いた1本化したcontigの作製を行った。このcontigをK.Ruddらにより開発されたMapsrchにより染色体上の位置を調べる。このようにして全てのcontigについて整理を行ったところ、位置が決定できたもので2162547塩基対、位置が決定できていないものでは440365塩基対になっている。 整理した全てのcontig配列より終止コドンから終止コドンという方法で75アミノ酸以上のものを取ると位置決定済みのものから8342個のorfが取れる。このorfデータをpirデータベースに対しblastを用いて相同性検索を行う、有為なホモロジーの見られるorfの整理を行った。その結果、特にゲノムプロジェクトから出される機能未知の領域からは窒素固定に機能する遺伝子と相同性を示すものや脂肪酸代謝系の遺伝子に相同なものなど興味深いものが見られる。 本研究において大腸菌において染色体配列上の決定された領域と決定されていない領域が明らかになった。この情報はゲノムプロジェクトの推進には欠かせない情報である。未決定領域の位置、その長さ、及びそれと接するcontigの端60ベースを調べた結果全体で357個の未決定領域が存在し、そのギャップの長さが5kb以下のものが200余りになる。大腸菌の場合、長い配列を決定するのと同時に、このギャップを埋める方法を平行して進行させることにより効率良くその全体像が明らかになると考えられる。
|