文法学習アルゴリズムに基づく蛋白質高次構造予測システムの開発

研究課題

研究課題/領域番号	07249201
研究種目	重点領域研究
配分区分	補助金
研究機関	電気通信大学
研究代表者	横森貴電気通信大学, 電気通信学部, 助教授 (60139722)
研究分担者	小林聡電気通信大学, 電気通信学部, 助手 (50251707)
研究期間 (年度)	1995
研究課題ステータス	完了 (1995年度)
配分額 *注記	1,500千円 (直接経費: 1,500千円) 1995年度: 1,500千円 (直接経費: 1,500千円)
キーワード	Learning Theory / Tree Grammars / RNA Secondary Structures
研究概要	DNA、RNA、あるいは蛋白質の高次構造の予測を行なうために最も重要なのは、それらの高次構造を表現するためのモデルを提案することである。我々は既に、形式言語理論の枠組を援用した、核酸配列の構造、あるいは蛋白質の構造を表現するための形式的なモデルを提案してきた。特に、RNAの二次構造をモデル化するための文法として、木文法TAG^2_<RNA>を提案した。この木文法は、RNAの二次構造の中でも特に、その遺伝子の制御等への関わりが指摘され重要視されているシュードノット構造を含むような複雑な二次構造も柔軟に表現できることが検証されている。この文法TAG^2_<RNA>の学習アルゴリズムを開発する上でまず重要な問題となるのは、その構文解析アルゴリズムの計算量であった。すなわち、従来の木文法の構文解析アルゴリズムでは、時間計算量がO^(n^6)のものが知られているが、実際に実装して二次構造予測や同定に使用してみたところ、非常に遅く、長さ50程度の文字列の認識に対して、1時間以上かかってしまい、効率の良い実際的な学習アルゴリズムの開発は困難に思われた。そこで、我々は、TAG^2_<RNA>がRNA二次構造の表現という目的に特化されている点に注目して、より高速な構文解析アルゴリズムの開発を目指した。その結果、O^(n^4)のアルゴリズムを開発し、長さ50程度の配列に対しては、100倍以上の高速化が達成されることを実験的に検証した。またさらに、この開発されたアルゴリズムを用いて、シュードノット構造を含むことが知られているようなRNA配列の二次構造予測を行ったところ、非常に良い精度で、生物学的に知られている構造に合致することが実験的に確認された。現在は、上記研究と並行して行っていた、近似学習理論の新しい枠組に関する研究成果を土台にして、TAG^2_<RNA>の学習アルゴリズム・システムの開発・実装を進めている。

報告書

(1件)

1995 実績報告書