ゲノム塩基配列の報告されている真正細菌について4~6連続塩基の出現頻度を集計した。その頻度に基づき距離を計算し、16SrRNA遺伝子配列では系統分類が難しい属について系統解析が可能になった。菌叢構成種解析については、口腔内細菌の人工的な環境細菌叢試料を作り、5塩基配列の出現頻度による構成種比率を求めたところ精度の高い計算結果が得られた。水平伝播遺伝子解析については、同データベースを用いて1クラス・サポートベクターマシンを使って抽出された領域には遺伝子転位に係る遺伝子や転写・翻訳、移動性因子に関係する遺伝子が際立って多かった。機能がまだ報告されていない遺伝子がおよそ半数に達した。
|