分子進化系統樹の作成方法がこれまで数多く提案されているが、決定的なものはいまだ出現してない。最も統計的に厳密な最尤法も樹型の選択、特に多重分枝の推定において誤差が多い。本研究で、我々は帰納推論で使用されている最小複雑性原理(MBC)に基づくことによって、より広い情報論の枠組から新しい分子進化系統樹構築法を提案し、以下のような研究結果を得られた。 1. 理論の構築: 我々は経験的なエントロピー関数という名称で有限の連続変量から計算できるエントロピーを定義し、これはn→∝の時、Shannonのエントロピーに収束する。このエントロピー関数を基礎として分布間の擬距離を与える経験的KL情報量を定義した。そしてデータの持つモデル準拠複雑性を、モデルを前提とした時のデータの経験的KL情報量とモデルそのもののエントロピーの和として定義し、これを最小とするモデルを最適なモデルとした。 2. 数値シミュレーション: 我々は人工的な分子進化を仮定して、これに乱数を使った遺伝子配列をシミュレーションによって作成し、本方法を始めとして伝統的な最尤法とAIC法を適用して、元の分子進化モデルの復元の精度を検討した。その結果は、(1)有根系統樹では最尤法とAIC基準と比べれば、MBC法は多重分岐(3分岐以上)がある場合、あるいは対象とする核酸配列が一定の長さ(3000bp以上)の場合、優れた結果を得た。(2)無根系統樹では、最尤法は二分木に偏りすぎで内部枝長が推定誤差枝長以内でも殆ど二分木として推定した。AIC法とMBC法は真の内部枝長が推定誤差付近で三分木と二分木が50%程度になり多重分岐があった場合における分子進化系統樹推定の不偏性が確証された。ここで、AICはより二分木的で95%古典的統計検定に相当し、MBC法は99%の有意水準で分岐への慎重な傾向を示した。
|