研究概要 |
DNAマイクロアレイ等の技術の発展により,生物種や組織細胞,実験条件などの異なる様々な遺伝子発現プロファイルが大量に蓄積されつつある.そして,これらの膨大なデータから生物学的な情報を得るために,遺伝子の機能が類似しているもの毎に遺伝子発現プロファイルを分類することが求められている.遺伝子発現プロファイルを,事前に定めた類似性尺度を基準として部分集合(クラスタ)に分類することをクラスタリングという. 遺伝子発現プロファイルは,生物種や組織細胞,様々な実験条件などを各次元とする空間上のベクトルの集合とみなすことが可能である.そのため,ユークリッド距離,マンハッタン距離,相関係数等を用いたクラスタリング手法が用いられてきた.しかし,遺伝子発現プロファイルの次元の増加に従い,測定誤差やはずれ値,遺伝子の機能に無関係な次元の影響が大きくなり,クラスタ中のfalse positive, false negativeが増加する傾向にある. そこで,本研究では,これらの尺度とは異なるカーネル関数を用いた距離尺度を定義し,この尺度による発現パターンの解析を行った.カーネル関数は,パターン認識の分野で近年高い評価を得ているサポートベクターマシンにおいて利用されている.代表的なカーネル関数を用いたクラスタリングを行った結果,ユークリッド距離,相関係数を用いたクラスタリングよりも,データ中のはずれ値に対する耐性が若干強い事が示された.今後,よりクラスタリングに優れたカーネル関数を構築する必要があると思われる.
|