既存のオーソログデータベースは機能予測への利用を主な目的としているため、パラログの混在は大きな問題ではなかった。しかし系統解析ではその基盤たるべきオーソログ配列データセットからパラログが完全に除去されることが望ましい。本研究の目的は配列データからパラログを含まないオーソログデータセットを自動で作成するシステムを開発することである。以下の番号の順で計画通り開発を進めたが、その途中で「遺伝子水平移行データの推定と削除」を新たに追加した。このため研究期間を6ヶ月延長した。最終的に、以下の計画していた工程と「遺伝子水平移行データの推定と削除」を全て完成させた。1配列間相同性検索:解析の対象とする生物の全推定遺伝子データをNCBIから入手する。BLASTを用いて各生物の遺伝子配列を総当りで相同性検索する。2アウトパラログフィルタリングの開発:BLへSTの結果ファイルからアウトパラログでの可能性のある配列群を配列類似性を基に除去する。この作業で完全にアウトパラログを除く事は出来ないが、後のステップの計算量を削減出来る。3双方向ベストヒットの検出と連結:各生物間で互いに最も類似性の高い遺伝子ペアを全て検出し、それらをオーソログペアとする。単連結法でこれらのオーソログペアを連結し、オーソログ候補データを作成する。4遺伝子水平移行データの推定と削除:生物間で水平移行したと推定される遺伝子をオリゴヌクレオチドの頻度を元に検出し、削除する。5系統樹作成とオーソログデータ自動作成:各オーソログ候補について系統樹を作成し、その樹形情報を元にオーソログのみのデータ(単系統)、パラログを含むデータ(多系統)を選別し、後者については単系統になるよう、配列データを削除することでオーソログデータセットを作成する。また、相同性検索時の閾値を徐々に厳しくすることにより、アウトパラログの除去も行う。
|