研究概要 |
重要疾患に関連する遺伝子の多型データを収集しデータベース化している。現在までの成果を以下に述べる。 1.大規模多型データの取込みを行った。 1-1 dbSNPの全データ ASN1_flatを使用した。ファイルのサイズは約1.3GBで、塩基変化、染色体の物理地図上等のデータからなっていた。更新の頻度は1回/週で、今回使用したバージョンは、2002年2月15日版である。エントリー数は、1,973,347件であった。dbSNPは、疾患関連の記述がなくさらに遺伝子情報さえもほとんど収載されていないことはスタート以来改善されていない。 1-2 HGVBASEの全データ HGVBASEのデータ形式は、項目別箇条書きになっておりデータ項目はdbSNPと同様であった。ファイルサイズは、485MBであった。データ更新は、3〜4ヶ月ごとに行われている。今回使用したバージョンは、2001年11月2日版で、エントリー数は、984,093件であった。そのうち、遺伝子記号の記載のあるエントリーは16,919件で4,151種類のGDB収録済み遺伝子に関するものであった(平均4.1件/遺伝子)。その他に遺伝子との相同性の記述があるエントリーも加えると17,335件の既知・相同遺伝子の多型情報を含むことがわかった。この数値はdbSNPより格段に多いが全エントリーのわずかに1.8%で、他については遺伝子関連であるかないかが全く不明である。 2.我々の研究室で開発している単一遺伝子疾患変異データベースMutationViewの収録済データに関して多型データの整理を行った。癌関連遺伝子18について多型データ546エントリーを抽出して独立の表形式データとした。 3.今後の方針:dbSNPとHGVBASEをOMIMなどの疾患データとリンクさせる方法を検討する。また、単一遺伝子病原因遺伝子のみならず、一般遺伝子全ての多型をHGVBASEから抽出して基礎データとする。さらに、多型データの分類を行う。これら全てのデータはOracleデータベースシステムに納める予定である。
|