2005 Fiscal Year Annual Research Report
生物配列の高次構造記述向き形式文法とその構造予測への応用
Project/Area Number |
05J02830
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
加藤 有己 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC1)
|
Keywords | 確率多重文脈自由文法 / RNA2次構造 / シュードノット |
Research Abstract |
形式文法の構文解析技術を応用した、RNAの2次構造予測が注目を浴びている。特に、シュードノットと呼ばれる、1次構造上で塩基対が互いに交差して現れる依存関係を持つ部分構造をモデル化するための形式文法がいくつか提案されている。機能が未知のRNAは数多くあり、構造が類似していれば機能も類似するという生物学の経験則から、RNAの2次構造を知ることで、その機能の解明につながるものと期待されている。本研究では、文脈自由文法の自然な拡張モデルであり、高い解析能力を持つ多重文脈自由文法(MCFG)を用いて、RNAの2次構造解析を行った。我々の先行研究では、シュードノットを含むRNA2次構造記述のための生成能力が最小であると考えられるMCFGの部分クラスを同定した。本年度は、その部分クラスの規則に記号出力確率、状態遷移確率を付与した確率多重文脈自由文法(SMCFG)を導入した。次に、SMCFGに対して、入力塩基配列長の5乗のオーダーで確率最大の導出木を計算する構文解析アルゴリズム(CYKアルゴリズム)を設計した。また、文字列が出力される確率を計算するインサイドアルゴリズム及びアウトサイドアルゴリズムを設計し、両者を組み合わせて用いるEMアルゴリズムで、文法の確率パラメータを学習することが理論的に可能であることを示した。最後に、計算機実験を行うためにC言語を用いてCYKアルゴリズムを実装した。なお、プログラムへの入力はSMCFGとRNA塩基配列である。ここで、Rfamと呼ばれるデータベースに登録されており、シュードノットを構成するRNAファミリーに属す複数の塩基配列に対して2次構造予測を行った。SMCFGによる予測2次構造の精度(感度)は、Rfamの2次構造アノテーションと比較した結果99%以上となり、高い精度を示した。従って、RNA2次構造予測に対して提案手法は有効であると考えられる。
|
Research Products
(2 results)