研究課題/領域番号 |
21K15075
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分43060:システムゲノム科学関連
|
研究機関 | 東京大学 |
研究代表者 |
寺井 悟朗 東京大学, 大学院新領域創成科学研究科, 特任准教授 (40785375)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
|
キーワード | RNA2次構造 / 特徴抽出 / 回帰モデル / 機械学習 |
研究開始時の研究の概要 |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩によりRNA2次構造が関与する生命現象に関する大規模データが蓄積されつつある。本研究では、大規模データの背後にあるRNA2次構造の確率的振る舞いを考慮しつつ、特徴抽出や予測モデルの構築を行う新しい機械学習アルゴリズムを開発する。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させることを目指す。
|
研究実績の概要 |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩に よりRNA2次構造が関与する生命現象に関するデータが蓄積されつつある。具体的には、RNAの塩基配列と、その活性についての大規模データが蓄積されつつある。しかしながら、それらRNA配列と活性のデータを解析するための汎用的な方法は提案されていない。そこで、本研究では、RNA配列と活性のデータから特徴抽出や活性予測を行う機械学習アルゴリズムを開発する。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させることを目指す。 これまでに、RNA2次構造に含まれる詳細な特徴(塩基対、ヘアピンループ構造、内部ルー プ構造、バルジループ構造など)のRNA活性への寄与を考慮できるようにアルゴリズムを拡張した。さらに、RNA-RNA間の分子間2次構造についても塩基対、その他の部分構造の寄与を考慮できるようにした。また、公開された大規模データに対して提案手法を適用した。具体的には、原核生物の翻訳開始効率、スプライシング効率、リボザイ ムの自己切断活性についてのデータに開発したアルゴリズムを適用した。そして、ここまでの解析結果を論文および学会発表するとともに、提案アルゴリズムを実装したソフトウェアを開発し公開した。現在、アルゴリズムとソフトウェアの改良を並行して行なっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度は、ソフトウェアの高速化のための検討を行うとともに、2次構造の特徴抽出を予測モデルを高度化するためのアルゴリズムの改良を行なった。ソフトウェアの高速化については、近年報告されたビームサーチによる2次構造予測の高速化アルゴリズムを取り入れる方法についての調査と検討を行なった。アルゴリズムの改良については、開発した機械学習モデルに含まれる2次構造の確率分布パラメータを学習するアルゴリズムの開発を行い実装した。現在、この改良アルゴリズムの有効性の評価を行なっている。これに加えて、長さの異なるRNA配列に対する特徴抽出アルゴリズムについての検討を行なった。また、これまでの成果をIIBM2022にて学会発表した。ソフトウェアとアルゴリズムの両方の高度化が順調に進んでいることから、概ね順調に進んでいると評価する。
|
今後の研究の推進方策 |
今後も引き続き、ソフトウェアとアルゴリズムの改良を並行して行う。特に、アルゴリズムの適用範囲の拡大に注力する予定である。現在のアルゴリズムは、固定長のRNA配列に対して適用可能であるが、これを可変長のRNA配列に対しても適用できるように拡張を進める。また、新たに公開される大規模データを引き続き観察し、適用可能なデータが公開された場合には本アルゴリズムによる解析を実施する。
|