研究概要 |
重要疾患に関する遺伝子の多型データを収集しデータベース化を行っている現在までの成果を以下に述べる。 1. 大規模多型データの取り込みを行った。 1-1 dbSNPの全データ dbSNPのデータは、ASNl_flastを使用した。ファイルのサイズは、約2.4GBであった。データの項目には疾患情報が無く、遺伝子記号、塩基の変化、染色体の物理地図上の位置等からなっていた。本研究で使用した最後のバージョンは、2003年3月5日版である。多型のエントリー数は、3,737,010件で昨年の1,973,347件より1.9倍の増加であった。 1-2HGVBASEの全データ HGVBASEのデータ形式は、項目別箇条書きになっておりその中にdbSNPと同様なデータが入っていた。本研究で使用したバージョンは、2002年12月17日版である。データエントリー数は、1,702,845件、その中で遺伝子名の記述があるエントリーは、350,503件そのうち遺伝子記号まで記述のあるエントリーは292,460件であった。 2. 多型データのリレーショナルデータベース化を行った。 HGVBASEの1,702,845件のデータ項目から、ID、変異データ、遺伝記号、遺伝子名等の抽出を行った。さらにOMIM Genemapを用い疾患関連遺伝子2,405件の染色体の領域、遺伝子記号、遺伝形質、OMIM番号、病名の抽出を行った。これらとOMIMを我々が調査した遺伝子が同定された単一疾患遺伝子930のデータを加え、データベースソフトウェアMySQLを用いリレーショナルデータベース化を行った。その結果、検索キーに遺伝子記号を用いて検索したHGVBASEの疾患関連遺伝子のエントリー数は67,627件、単一疾患遺伝子に関するデータは39,336件であった。このシステムはWebブラウザの使用によりデータの検索、更新が可能である。
|