RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩によりRNAの塩基配列と、その活性についての大規模データが蓄積されつつある。しかしながら、それらRNA配列と活性のデータを解析するための汎用的な方法は提案されていない。そこで、本研究では、RNA配列と活性のデータから特徴抽出や活性予測を行う機械学習アルゴリズムの開発を行なった。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させるための研究を行なった。 まず2次構造に関するさまざま特徴を考慮できるようにアルゴリズムを拡張した。具体的には、2次構造に含まれる塩基対、ヘアピンループ構造、内部ループ構造、バルジループ構造などの部分構造の寄与を考慮できるようにした。次に、提案アルゴリズムを公開された大規模データに対して適用した。具体的には、原核生物の翻訳開始効率、スプライシング効率、リボザイムの自己切断活性に関するデータセットに対して提案アルゴリズムを適用した。これらデータセットの解析を通じて、我々の提案アルゴリズムは、RNA活性に直結する詳細で具体的な2次構造を抽出できること示した。これらの解析結果を論文および学会発表するとともに、提案アルゴリズムを実装したソフトウェアを開発し公開した。 最終年度は深層学習を利用して、2次構造に関するさらに広範囲な特徴を分析する方法の開発を行なった。具体的には、近年著しく進歩している深層学習を用いたデータの分散表現の活用を行なった。これにより、2次構造のより広範囲な特性を把握し、アルゴリズムの汎用性を向上させるための評価と検討を行なった。
|