研究概要 |
DNA,RNA,あるいは蛋白質の高次構造を予測するために重要なことは,それらの高次構造を表現するための形式モデルを提案することである.そのために,平成6年度の研究では,まず言語理論の枠組を援用しある種の木文法(tree grammar)に着目した.この木文法は元来自然言語処理の目的で提案されたものであるが,DNA配列などもある目的を持って生成された記号列であるという観点からすると,これらの形式文法を道具立てとしてDNA配列の性質をとらえられる可能性がある.実際,我々の研究から,特にRNAの二次構造に焦点をしぼったとき,この木文法をある方法で修正したモデルがRNA二次構造の表現文法として最適であることが判った.我々はこの文法をタグ付き木文法(TAG^2_<RNA>)と名付けたが,この文法によって非常に広範な種目に現れる既存のRNA二次構造が,無駄なくかつ無理書く表現できる.実際,生物データからの具体例を幾つか挙げると,HIV-2 gag-pol領域におけるRNA,グループIイントロンに見られるRNA,種々のtRNA,リボゾームRNAなどなどがある.現在,これらの研究知見をもとに,TAG^2_<RNA>による各種のRNA二次構造の同定(分類)システムを試作中であり,今後は,蛋白質の高次構造の予測問題などへの応用していく予定である.また,より進んだ研究として,DNA・RNA構造の予測問題をこの木文法に対する学習問題として定式化し,その数理的な解析,および学習アルゴリズムの開発を行なうことが考えられる. 次年度では,本年度における理論的な知見・成果を基に同定・予測システムをより洗練されたものに改良すると同時に,試作された高次構造予測プロトタイプシステムの実験・評価結果をフィードバックすることにより徐々に改良を行ない,より完成度の高いシステムの構築を目指す.役割分担としては,本年度と同様,横森(研究代表者)が主に本研究の理論面の改良を担当し,小林(研究分担者)が高次構造予測システムの改良を担当する.
|