近年、世界の各地で様々な生物のゲノムプロジェクトが進行し、その生物が持つ全てのタンパク質のアミノ酸配列を推定出来るようになった。また、様々な生物に共通して存在するオーソログを検出し、その系統関係を調べることが出来る環境が整いつつある。一方、遠縁の生物間の系統関係、たとえば真正細菌の全体の系統樹や古細菌と真正細菌の関係などは単一の分子配列を行った解析では信頼性の問題で限界があった。より多くの遺伝子データが利用可能になった今、それを活用して今まで決められなかった系統関係を明らかにすることには意義がある。本解析では、まずゲノムプロジェクトが終了している生物(現在分かっている原核生物のすべての門より一種ずつ選んだ17種、)の推定されている全てのオーソログを用いて系統樹を作成した。このとき、よりよいオーソログセットの候補を選別するために、MBGD(MicroBiol Genome Database)より得たデータセットを用いてマルチプルアライメントを行い、その編集を行った。比較する系統樹の生物種と数が同じ場合の比較プログラムは以前から広く使われてきたが、異なる場合の比較プログラムは存在しなかったので、新に自動で樹形比較するためのプログラムを開発した。そして得られたの系統樹の比較を行い、最も矛盾しない樹形を持つ系統樹を多く持つ系統樹を検出した。現在、それぞれの枝の分岐パターンの重要性を統計的に評価するプログラムを開発中であり、これを適応することで信頼性の高い種の系統樹を得ることができると考えている。
|