2017 Fiscal Year Research-status Report
次世代シークエンシングデータを利用した機械学習によるRNA二次構造予測の高精度化
Project/Area Number |
16K00404
|
Research Institution | Keio University |
Principal Investigator |
佐藤 健吾 慶應義塾大学, 理工学部(矢上), 講師 (20365472)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | バイオインフォマティクス / RNA二次構造予測 / 機械学習 |
Outline of Annual Research Achievements |
RNA二次構造予測は古くから研究されているにも関わらず,長鎖非コードRNAやRNAウィルスのような長いRNA配列に対する予測精度は未だに十分とは言えない.近年,次世代シークエンサーから二次構造プロファイルを取得することが可能となったが,二次構造プロファイルは完全な二次構造でないために,既存の機械学習に基づく手法をそのまま適用することはできない.本研究では,部分的な構造情報である二次構造プロファイルを弱レベル学習データとして利用可能とする機械学習アルゴリズムを開発し,既存手法よりも精密な二次構造モデルを大量の二次構造プロファイルから学習することによって,過学習を回避しつつRNA二次構造予測の精度向上を目指す. これにより,二次構造予測をベースにした機能性RNAの機能・構造解析の精度向上を実現する.本年度は,既存のTurner熱力学モデルに基づく自由エネルギー最小化法と構造化SVMによるパラメータ学習法を融合することによってより頑健かつ高精度なRNA二次構造予測手法の開発を行った.計算機実験の結果,既存の手法に見られる過学習は観測されず,予測精度の向上が確認された.さらに,構造化SVMと深層学習を組み合わせた機械学習アルゴリズムを用いて塩基対確率を直接推定し,その上で期待精度最大化に基づくRNA二次構造予測を行う手法の開発を行った.これによって,通常のRNA二次構造予測のみならず,シュードノット構造を考慮したRNA二次構造予測において既存手法を上回る精度を達成した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り,過学習を回避する方法および深層学習を含む高度な機械学習アルゴリズムを導入することに成功したため,おおむね順調に進展していると言える.
|
Strategy for Future Research Activity |
本年度開発した手法(熱力学モデルの融合および深層学習の導入)を,大量の次世代シークエンスデータから得られる弱ラベルからの機械学習アルゴリズムに適用し,さらに高精度なRNA二次構造予測を目指す.
|
Causes of Carryover |
(理由) 論文投稿料および旅費が当初の予定よりも少なく済んだことによる. (使用計画) 次年度以降,研究成果を学会発表するための旅費および論文投稿料を当初の予定よりも当初の予定よりも増やす.
|
Research Products
(5 results)