ゲノムDNA配列のアラインメントは、比較ゲノム研究の中で最も直接的でかつ有用なバイオインフォマティクス技術である。しかしながら、ゲノム配列のアラインメントには様々な困難を伴う。本研究では、脊椎動物ゲノム相当の長大なゲノム配列間アラインメントを、特別な計算機資源を要することなく実用的な計算時間で求めるための手法の開発を目指した。そのために、配列を巨視化し、階層的に精密化するというアルゴリズムを考案した。本年度は、そのアルゴリズムを実装したプログラム「Cgaln」を開発した。原核生物および哺乳動物の染色体配列を対象としてCgalnの性能をいくつかの従来法と比較した。従来法に比べ、Cgalnは有意に少ない計算時間と記憶容量で実行できる一方、従来法の中で最も高い精度を示すプログラムと同等の精度を持つことが確認された。Cgalnのソースコードはインターネットを通じて一般に公開している。 本年度はまた、遺伝子発現プロファイルに基づく細胞の分類にも取り組んだ。特に、がん細胞と正常細胞の判別や、がん細胞のタイプ分類に遺伝子発現プロファイルを用いる手法を開発した。この分野にはすでに多くの研究が蓄積しているが、従来法よりもはるかかに少ない、わずか1~2種の遺伝子の発現データを用いるだけで、従来法に遜色のない分類性能が得られることが判明した。そのような遺伝子はがんの分子マーカーとしてふさわしい特徴を備えている。さらに、がん細胞と正常細胞の間で選択的スプライシングにどのような差異が見られるかも調べた。予期に反し、一般にがん細胞の方が選択的スプライシングによる分子種の多様性が低いことが観察された。
|