文法の近似学習理論と遺伝子情報解析への応用

Research Project

Project/Area Number	07780310
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	The University of Electro-Communications
Principal Investigator	小林聡電気通信大学, 電気通信学部, 助手 (50251707)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥1,100,000 (Direct Cost: ¥1,100,000) Fiscal Year 1995: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords	Learning Theory / Approximate Learning / Rough Sets / RNA Secondary Structures
Research Abstract	我々は既に、形式言語理論の枠組を援用した、核酸配列の構造、あるいは蛋白質の構造を表現するための形式的なモデルを提案してきた。しかし、実際の応用においては、目標とする遺伝子文法が、種々の抽象化やノイズの影響のため、設定した仮説空間に含まれない場合が多い。従って、学習目標とする遺伝子文法が仮説空間に含まれない場合でも、その目標文法の近似文法を学習させる必要性が生じ、そのような近似学習を取り扱える基礎理論を構築することが第一に重要である。従来の学習理論の枠組では、確率文法の近似的学習など、確率的要素を取り入れた枠組が主流であるが、本研究では、いっさい確率的な要素を組み入れない近似文法学習理論を提案した。特に、我々は、概念の近似理論として近年注目を集めている、ラフ集合理論を文法学習に組み入れ、目標概念を含む最小の仮説、または目標概念に含まれる最大の仮説を極限同定するための必要十分条件を示した。また興味深いことに、そのような近似学習の枠組においては、正データからの学習能力が完全データからの学習能力に等しくなることが示された。一方、従来から提案してきたRNAの二次構造表現のモデルとしてのTAG^2_<RNA>の構文解析アルゴリズムの効率化にも成功した。従来の木文法をRNA二次構造表現に目的を絞り込むことによって、O(n^6)からO(n^4)への効率化を達成した。そして、開発したアルゴリズムを実装し、長さ100程度のシュードノットを含むような二次構造の予測に対しても十分対応できることを実験的に検証した。高速な構文解析は効率の良い学習にとっても有効であると考えられ、今後は、RNA二次構造の同定・特徴抽出問題を、上記の近似学習理論のもとで定式化した上で、近似学習アルゴリズムを開発・実装して、構造予測システムを構築してく予定である。

Report

(1 results)

1995 Annual Research Report