2002 Fiscal Year Annual Research Report
情報表現モデルによるゲノム配列情報のモデル化と予測
Project/Area Number |
12208010
|
Research Institution | The University of Tokyo |
Principal Investigator |
矢田 哲士 東京大学, 医科学研究所, 助教授 (10322728)
|
Co-Investigator(Kenkyū-buntansha) |
浅井 潔 産業技術総合研究所, 生命情報科学研究センター, 主任研究員 (30356357)
|
Keywords | バイオインフォマティクス / ゲノム生物学 / 生物配列解析 / 確率モデル |
Research Abstract |
情報表現モデルによるゲノム配列情報のモデル化と予測に関する研究を展開することで、実用レベルの信頼性をもつヒト遺伝子発見プログラムの開発に成功した。ヒト遺伝子発見プログラムDIGITは、複数のab initio遺伝子発見プログラムを組み合わせて遺伝子を発見することに成功している。DIGITを利用してヒトゲノムの網羅的な探索を行ったところ、配列の類似性からは検出することができない未知遺伝子(DIGITizedgenes)約8,000個を発見し、さまざまな側面からその信頼性の高さを明らかにした。DIGITならびにDIGITized genesは、http://digit.ims.u-tokyo.ac.jp/から公開され、国内外の研究者から広く利用されている。また、真核生物遺伝子発見システムGeneDecoderは、従来、主に手作業で行われていたBLAST検索結果やEST写像結果とab initio遺伝子発見の統合化を自動的に行うことを可能とした。GeneDecoderは、さまざまなゲノムプロジェクトで用いらるとともに、さまざまな真核生物に関する解析サービスを行っている(http://www.genedecoder.org/)。 さらに、配列情報解析の新しい展開を目指し、配列情報の多面性に光を当てた情報表現モデルに関する研究に着手した。プロモータの配列情報の多面性は既に数多くの研究者によって報告されているが、その配列情報の実体は、シス因子が断片的に蓄積されているだけで、それらが全体としてどのような構造を保持しているかは全く明らかにされていない。全体構造における遠距離相互作用を適切に表現できる確率モデルを設計することは困難であるが、確率モデル上のカーネル法を用いることにより、未知の構造情報を柔軟に取り込んだモデル化が可能である。すなわち、確率モデル上に適切なカーネルを設定することによって、比較的単純な確率モデルを用意するだけで、複雑な構造情報を何らかの形で表現したモデルを用意することに成功した。この研究成果により、これまで、その情報構の複雑さゆえに長大な生物配列からの発見が困難とされてきた構造RNAの発見やプロモータの発見が、比較的単純なモデルによって、すなわち比較的少ない計算量によって実現される道筋が確立された。
|
-
[Publications] T.Yada, Y.Totoki, Y.Ykaeda, Y.Sakaki, T.Takagi: "DIGIT : a novel gene finding program by combining gene-finders"Proc. of Pacific Sympo. on Biocomputing '03. 375-387 (2003)
-
[Publications] H.Noguchi, T.Yada, Y.Sakaki: "A novel index which precisely derives protein coding regions from cross-species genome aligments"Proc. of Genome Informatics Workshop 2002. 183-191 (2002)
-
[Publications] T.Kin, K.Tsuda, K.Asai: "Marginalized Kernels for RNA Sequence Data Analysis"Proc. of Genome Informatics Workshop 2002. 112-122 (2002)
-
[Publications] M.Arita, K.Tsuda, K.Asai: "Modeling Splicing Sites with Pairwise Correlations"Bioinformatics. 18. 27S-34S (2002)
-
[Publications] K.Tsuda, T.Kin, K.Asai: "Marginalized kernels for biological sequences"Bioinformatics. 18. 268S-275S (2002)