2022 Fiscal Year Research-status Report
Development of Machine Learning Algorithm Encapsulating Probability Distribution of RNA Secondary Structure
Project/Area Number |
21K15075
|
Research Institution | The University of Tokyo |
Principal Investigator |
寺井 悟朗 東京大学, 大学院新領域創成科学研究科, 特任准教授 (40785375)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | RNA2次構造 / 特徴抽出 / 回帰モデル / 機械学習 |
Outline of Annual Research Achievements |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩に よりRNA2次構造が関与する生命現象に関するデータが蓄積されつつある。具体的には、RNAの塩基配列と、その活性についての大規模データが蓄積されつつある。しかしながら、それらRNA配列と活性のデータを解析するための汎用的な方法は提案されていない。そこで、本研究では、RNA配列と活性のデータから特徴抽出や活性予測を行う機械学習アルゴリズムを開発する。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させることを目指す。 これまでに、RNA2次構造に含まれる詳細な特徴(塩基対、ヘアピンループ構造、内部ルー プ構造、バルジループ構造など)のRNA活性への寄与を考慮できるようにアルゴリズムを拡張した。さらに、RNA-RNA間の分子間2次構造についても塩基対、その他の部分構造の寄与を考慮できるようにした。また、公開された大規模データに対して提案手法を適用した。具体的には、原核生物の翻訳開始効率、スプライシング効率、リボザイ ムの自己切断活性についてのデータに開発したアルゴリズムを適用した。そして、ここまでの解析結果を論文および学会発表するとともに、提案アルゴリズムを実装したソフトウェアを開発し公開した。現在、アルゴリズムとソフトウェアの改良を並行して行なっている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は、ソフトウェアの高速化のための検討を行うとともに、2次構造の特徴抽出を予測モデルを高度化するためのアルゴリズムの改良を行なった。ソフトウェアの高速化については、近年報告されたビームサーチによる2次構造予測の高速化アルゴリズムを取り入れる方法についての調査と検討を行なった。アルゴリズムの改良については、開発した機械学習モデルに含まれる2次構造の確率分布パラメータを学習するアルゴリズムの開発を行い実装した。現在、この改良アルゴリズムの有効性の評価を行なっている。これに加えて、長さの異なるRNA配列に対する特徴抽出アルゴリズムについての検討を行なった。また、これまでの成果をIIBM2022にて学会発表した。ソフトウェアとアルゴリズムの両方の高度化が順調に進んでいることから、概ね順調に進んでいると評価する。
|
Strategy for Future Research Activity |
今後も引き続き、ソフトウェアとアルゴリズムの改良を並行して行う。特に、アルゴリズムの適用範囲の拡大に注力する予定である。現在のアルゴリズムは、固定長のRNA配列に対して適用可能であるが、これを可変長のRNA配列に対しても適用できるように拡張を進める。また、新たに公開される大規模データを引き続き観察し、適用可能なデータが公開された場合には本アルゴリズムによる解析を実施する。
|
Research Products
(1 results)