文法学習アルゴリズムに基づく蛋白質高次構造予測システムの開発

Research Project

Project/Area Number	07249201
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	The University of Electro-Communications
Principal Investigator	横森貴電気通信大学, 電気通信学部, 助教授 (60139722)
Co-Investigator(Kenkyū-buntansha)	小林聡電気通信大学, 電気通信学部, 助手 (50251707)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥1,500,000 (Direct Cost: ¥1,500,000) Fiscal Year 1995: ¥1,500,000 (Direct Cost: ¥1,500,000)
Keywords	Learning Theory / Tree Grammars / RNA Secondary Structures
Research Abstract	DNA、RNA、あるいは蛋白質の高次構造の予測を行なうために最も重要なのは、それらの高次構造を表現するためのモデルを提案することである。我々は既に、形式言語理論の枠組を援用した、核酸配列の構造、あるいは蛋白質の構造を表現するための形式的なモデルを提案してきた。特に、RNAの二次構造をモデル化するための文法として、木文法TAG^2_<RNA>を提案した。この木文法は、RNAの二次構造の中でも特に、その遺伝子の制御等への関わりが指摘され重要視されているシュードノット構造を含むような複雑な二次構造も柔軟に表現できることが検証されている。この文法TAG^2_<RNA>の学習アルゴリズムを開発する上でまず重要な問題となるのは、その構文解析アルゴリズムの計算量であった。すなわち、従来の木文法の構文解析アルゴリズムでは、時間計算量がO^(n^6)のものが知られているが、実際に実装して二次構造予測や同定に使用してみたところ、非常に遅く、長さ50程度の文字列の認識に対して、1時間以上かかってしまい、効率の良い実際的な学習アルゴリズムの開発は困難に思われた。そこで、我々は、TAG^2_<RNA>がRNA二次構造の表現という目的に特化されている点に注目して、より高速な構文解析アルゴリズムの開発を目指した。その結果、O^(n^4)のアルゴリズムを開発し、長さ50程度の配列に対しては、100倍以上の高速化が達成されることを実験的に検証した。またさらに、この開発されたアルゴリズムを用いて、シュードノット構造を含むことが知られているようなRNA配列の二次構造予測を行ったところ、非常に良い精度で、生物学的に知られている構造に合致することが実験的に確認された。現在は、上記研究と並行して行っていた、近似学習理論の新しい枠組に関する研究成果を土台にして、TAG^2_<RNA>の学習アルゴリズム・システムの開発・実装を進めている。

Report

(1 results)

1995 Annual Research Report