2011 Fiscal Year Annual Research Report
真菌を含む微生物メタゲノムからの遺伝子予測および種分類
Project/Area Number |
22710203
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
野口 英樹 東京工業大学, 大学院・生命理工学研究科, 特任准教授 (50333349)
|
Keywords | メタゲノム / 生物情報科学 / 遺伝子予測 |
Research Abstract |
本研究では、真核生物を含むメタゲノム配列断片から遺伝子領域を予測するための情報科学的手法の開発を目指している。本年度は、昨年度までに構築したコドン・ダイコドン頻度のGC含量による回帰モデルおよびスプライス部位(ドナー、アクセプター)の推定モデルを用いて、未知真核生物の遺伝子構造を予測するプログラムを開発した。構築した個々のコドン頻度推定モデル、スプライス部位推定モデルは、多様な真核生物の遺伝子予測に広く適用可能であることが示唆された。一方で、特に高等真核生物では、真菌・原生生物と比較してイントロン長や遺伝子間距離の長いものが多く、遺伝子密度が極端に低いために、結果として遺伝子構造全体の予測精度に大幅な低下が見られた。現状では、未知生物種のゲノムに関してこれらの統計量を事前に知る簡便な方法は存在しないため、本研究では遺伝子密度が比較的高い真菌・原生生物に対象を絞って予測モデルのパラメータ調整を行った。結果、対象生物種ゲノムのGC含量によらず高い精度での遺伝子予測が可能となった。また、予測遺伝子の質が高いことから、予測遺伝子中のダイコドン頻度に基づいた生物種の分類(クラスタリング)の精度に関しても、高い精度が実現できている。現在のところ、未知の真核生物ゲノムに対して、事前の学習データなしにゲノム断片だけから遺伝子予測が可能なツールは存在しない。本研究の成果により、今後真菌や原生生物のDNAが混在するメタゲノム配列データの解析研究が大きく進展できるものと期待できる。
|