研究課題/領域番号 |
21K15075
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分43060:システムゲノム科学関連
|
研究機関 | 東京大学 |
研究代表者 |
寺井 悟朗 東京大学, 大学院新領域創成科学研究科, 特任准教授 (40785375)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | RNA2次構造 / 特徴抽出 / 回帰モデル / 機械学習 |
研究開始時の研究の概要 |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩によりRNA2次構造が関与する生命現象に関する大規模データが蓄積されつつある。本研究では、大規模データの背後にあるRNA2次構造の確率的振る舞いを考慮しつつ、特徴抽出や予測モデルの構築を行う新しい機械学習アルゴリズムを開発する。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させることを目指す。
|
研究実績の概要 |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩によりRNAの塩基配列と、その活性についての大規模データが蓄積されつつある。しかしながら、それらRNA配列と活性のデータを解析するための汎用的な方法は提案されていない。そこで、本研究では、RNA配列と活性のデータから特徴抽出や活性予測を行う機械学習アルゴリズムの開発を行なった。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させるための研究を行なった。 まず2次構造に関するさまざま特徴を考慮できるようにアルゴリズムを拡張した。具体的には、2次構造に含まれる塩基対、ヘアピンループ構造、内部ループ構造、バルジループ構造などの部分構造の寄与を考慮できるようにした。次に、提案アルゴリズムを公開された大規模データに対して適用した。具体的には、原核生物の翻訳開始効率、スプライシング効率、リボザイムの自己切断活性に関するデータセットに対して提案アルゴリズムを適用した。これらデータセットの解析を通じて、我々の提案アルゴリズムは、RNA活性に直結する詳細で具体的な2次構造を抽出できること示した。これらの解析結果を論文および学会発表するとともに、提案アルゴリズムを実装したソフトウェアを開発し公開した。 最終年度は深層学習を利用して、2次構造に関するさらに広範囲な特徴を分析する方法の開発を行なった。具体的には、近年著しく進歩している深層学習を用いたデータの分散表現の活用を行なった。これにより、2次構造のより広範囲な特性を把握し、アルゴリズムの汎用性を向上させるための評価と検討を行なった。
|