RNA二次構造予測は古くから研究されているにも関わらず,長鎖非コードRNAやRNAウィルスのような長いRNA配列に対する予測精度は未だに十分とは言えない.近年,次世代シークエンサーから二次構造プロファイルを取得することが可能となったが,二次構造プロファイルは完全な二次構造でないために,既存の機械学習に基づく手法をそのまま適用することはできない.本研究では,部分的な構造情報である二次構造プロファイルを弱レベル学習データとして利用可能とする機械学習アルゴリズムを開発し,既存手法よりも精密な二次構造モデルを大量の二次構造プロファイルから学習することによって,過学習を回避しつつRNA二次構造予測の精度向上を目指す.これにより,二次構造予測をベースにした機能性RNAの機能・構造解析の精度向上を実現する.本年度は,深層学習によるRNA二次構造予測アルゴリズムを開発した.昨年度開発したmxfoldを拡張し,自由エネルギー最小化に基づく手法と深層学習に基づく手法を組み合わせ,さらに自由エネルギー値に基づく正則化を深層学習モデルに組み込むことによって適切な複雑さを表現することができる二次構造予測モデルを学習する.ベンチマーク実験では,mxfoldを含む従来の手法と比べて極めて高い精度でRNA二次構造を予測可能であることを示した.さらに,深層学習を用いて塩基対確率を直接推定し,その上で期待精度最大化に基づくRNA二次構造予測を行う手法の改良を行った.これによって,通常のRNA二次構造予測のみならず,シュードノット構造を考慮したRNA二次構造予測において既存手法を上回る精度を期待できる.
|