研究概要 |
ゲノム解析計画においては、大量のDNA塩基配列の決定がなされ、それをもとにコンピュータによる遺伝子機能領域の推定がおこなわれる。そのためには、実験的にコーデイング領域として同定されている塩基配列とコドン使用頻度の特徴を充分に明らかにし、その知見を基礎に、タンパク質コーデイング領域を推定する手法を確立する必要がある。国際DNAデータベースに収録された約20Mbpのヒトゲノムの全塩基配列よりタンパク質コーデイング領域を抽出し、約30,000遺伝子についてコドン使用を算出した。一方、イントロン塩基配列ならびにフランキング塩基配列のデータセットをも用意し、それらからも形式的にトリプレットコドンの使用頻度を算出し、100トリプレット長以上のものを選択し、偽遺伝子コドンデータセットとした。本物遺伝子のコドン使用頻度と非コーデイング配列から偽コドン使用頻度について、判別分析を行い、最も良く分離する判別係数を求めた。既に蓄積している遺伝子塩基配列の大量さを反映して、2つのカテゴリーを当初の予想以上に良く分離する係数が得られた。エキソンとイントロン並びにフランキングからなる現実のゲノム塩基配列について、150b程度のウインドを設け、3フレームについて形式的なコドン使用を算出し、3塩基ずつスライドさせ、上記判別係数を用いて連続的にコーデイング領域の可能性の推定を行なった。実際のコーデイング領域と比較したところ、100コドンを越える様なエキソンについては、良い推定がなされ、実用性の高い方法であることが示された。
|