Development of Machine Learning Algorithm Encapsulating Probability Distribution of RNA Secondary Structure
Project/Area Number |
21K15075
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 43060:System genome science-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
寺井 悟朗 東京大学, 大学院新領域創成科学研究科, 特任准教授 (40785375)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | RNA2次構造 / 特徴抽出 / 回帰モデル / 機械学習 |
Outline of Research at the Start |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩によりRNA2次構造が関与する生命現象に関する大規模データが蓄積されつつある。本研究では、大規模データの背後にあるRNA2次構造の確率的振る舞いを考慮しつつ、特徴抽出や予測モデルの構築を行う新しい機械学習アルゴリズムを開発する。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させることを目指す。
|
Outline of Annual Research Achievements |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩によりRNAの塩基配列と、その活性についての大規模データが蓄積されつつある。しかしながら、それらRNA配列と活性のデータを解析するための汎用的な方法は提案されていない。そこで、本研究では、RNA配列と活性のデータから特徴抽出や活性予測を行う機械学習アルゴリズムの開発を行なった。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させるための研究を行なった。 まず2次構造に関するさまざま特徴を考慮できるようにアルゴリズムを拡張した。具体的には、2次構造に含まれる塩基対、ヘアピンループ構造、内部ループ構造、バルジループ構造などの部分構造の寄与を考慮できるようにした。次に、提案アルゴリズムを公開された大規模データに対して適用した。具体的には、原核生物の翻訳開始効率、スプライシング効率、リボザイムの自己切断活性に関するデータセットに対して提案アルゴリズムを適用した。これらデータセットの解析を通じて、我々の提案アルゴリズムは、RNA活性に直結する詳細で具体的な2次構造を抽出できること示した。これらの解析結果を論文および学会発表するとともに、提案アルゴリズムを実装したソフトウェアを開発し公開した。 最終年度は深層学習を利用して、2次構造に関するさらに広範囲な特徴を分析する方法の開発を行なった。具体的には、近年著しく進歩している深層学習を用いたデータの分散表現の活用を行なった。これにより、2次構造のより広範囲な特性を把握し、アルゴリズムの汎用性を向上させるための評価と検討を行なった。
|
Report
(3 results)
Research Products
(3 results)