研究概要 |
既存のオーソログデータベースは機能予測への利用を主な目的としているため、パラログの混在は大きな問題ではなかった。しかし系統解析ではその基盤たるべきオーソログ配列データセットからパラログが完全に除去されることが望ましい。本研究の目的は配列データからパラログを含まないオーソログデータセットを自動で作成するシステムを開発することである。平成22年度に解析に必要な一通りのプログラムを作成したため、平成23年度はシミュレーション及びシステム構築を行った。 1シミュレーションテスト (1)アウトパラログの影響 アウトパラログの発生とその後の遺伝子の欠失を起こすプログラムを作成し、これによって生成したデータをシミュレーションに用いた。アウトパラログが含まれるために従来の方法では正解系統樹を推定できないデータについても、本システムでは高確率(88%)で正しく系統推定できることを示した。 (2)遺伝子水平伝播(HGT)の影響 HGTシミュレーションプログラム(HGT-Gen)を開発し、それを用いて本システムで作成したオーソログデータセットの評価を行った。その結果、特定の生物間でHGTが大量に起こると樹形が変化することが示された。従って、本システムに組み込んだHGT除去の工程は重要であると考えられる。 2自動化プログラムの作成および公開 各種生物のアミノ酸配列データからオーソログデータセットを作成するシステムを作成した。基本的に、完全長ゲノム配列が決定されている生物の全推定ORFを翻訳したデータを用いる。本システムはperl,ruby,C,scalaで作成されており、LinuxあるいはUnixのコンピュータで動作する。原核生物13種を用いた計算例では9時間ほどかかったが、遺伝子水平伝播予測を除くと2時間ほどで終了する。現在論文を執筆中であり、論文掲載後にプログラムを公開する予定である。
|