本研究の目的は、たんぱく質の相互作用をネットワークとして表現した情報と、DNAマイクロアレイによる網羅的な遺伝子発現解析データをあわせることにより、生体内で遺伝子発現の変化に、直接的に関与する原因分子を同定すること手法を確立することである。 本年度は、予備的な解析をいくつか行い、ネットワークの中心性、中でもBetweeness Centralityという指標を用いた方法が、有用であることを確かめた。一方、こうした解析では、ゲノムワイドでの有意性を客観的に評価する必要があり、このためにRandom Permutation testを導入することを検討している。これまで、解析のためのプログラムをPythonというスクリプト言語で作ってきたため、こうした繰り返し計算で時間がかかるため、C++言語への移行を進めている最中である。 ヒトのすべての遺伝子を対象にした遺伝子の発現解析においては、発現変動が"ある"と考えられる遺伝子を選び出す方法はさまざまで、今現在も統一的な手法が採用されているわけではない。また、DNAマイクロアレイを使った発現解析では、サンプル数が高々100から200であるのに対し、遺伝子の数は数万にもなることから、t検定など通常の統計的手法では、多重比較の問題が大きかったり、一般的な機械学習アルゴリズム(決定木やSVMなど)は適応しにくいという問題があった。これらを解決する方法として、近年注目を集めているのが、Random Forestsという方法である。マイクロアレイデータの解析には、非常に有用で、計算回数を増やすことで、アレイデータのノイズ除去にも役立つことがわかりつつある。 本研究では、これらの成果を踏まえ、Random Forestsで選び出した遺伝子をネットワークベースの知識で解析することで、新たな知見を生み出す方法論の開発を引き続き、目指してゆく。
|