複数の塩基配列を繋げ合わせて系統樹を推定する「Sequence Concatenation」アプローチの問題点は、最節約法・最尤法の枠組みでいろいろ知られているが、距離行列法の枠組みでは十分報告されていない。初年度の研究として、私は「Sequence Concatenation」アプローチの推定精度を距離行列法の枠組みで、シミュレーションを利用し、定量的に調べてみた。その結果、特に遺伝子の数が小さい場合と、遺伝子間のヴァリエーションが大きい場合、間違った系統樹が高いブートストラップ確率で支持されるケースがあることが明らかになった。極端に、同じ系統樹をかなり高いブートストラップ確率で支持する二つの遺伝子をつなげ合わせても、間違った系統樹が高いブートストラップ確率で支持されるケースも観察した。その原因は遺伝子の進化距離と配列相違頻度の間に線形関係が成り立たないことにあるのを、理論的な研究で分かった。 「Sequence Concatenation」の問題を克服する方法として、各々の遺伝子から個別に進化距離を推定し、その距離を平均して系統樹を推定するアプローチが考えられる。ブートストラップ確率を計算する時、遺伝子を固定して、遺伝子の中の配列データだけ再抽出する方法がよく使われている。しかし、遺伝子間のヴァリエーションがうまく反映されないので、間違った系統樹が高いブートストラップ確率で支持されるケースがあるのが分かった。以上のシミュレーションの結果と理論的な研究で、分子系統樹のブートストラップ確率を計算するとき、遺伝子の再抽出が距離行列法の枠組みで大事であることが明らかになった。
|