研究課題/領域番号 |
21K15075
|
研究機関 | 東京大学 |
研究代表者 |
寺井 悟朗 東京大学, 大学院新領域創成科学研究科, 特任准教授 (40785375)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | RNA2次構造 / 特徴抽出 / 回帰モデル / 機械学習 |
研究実績の概要 |
RNAの2次構造は様々な生命現象で重要な役割を果たしており、その役割を正確に理解することは学術的にも工学的にも重要である。近年、実験技術の進歩によりRNA2次構造が関与する生命現象に関するデータが蓄積されつつある。具体的には、RNAの塩基配列と、その活性についての大規模データが蓄積されつつある。本研究では、大規模データの背後にあるRNA2次構造の確率的振る舞いを考慮しつつ、特徴抽出や予測モデルの構築を行う新しい機械学習アルゴリズムを開発する。そして、このアルゴリズムを様々なタイプの大規模データへ適用することを通じて、汎用的な枠組へと発展させることを目指す。 今年度は、より詳細な2次構造の特徴を考慮できるようにアルゴリズムを拡張した。具体的には、2次構造に含まれる塩基対、ヘアピンループ構造、内部ループ構造、バルジループ構造などの部分構造の寄与を考慮できるようにした。さらに、RNA-RNA間の分子間2次構造についても塩基対、その他の部分構造の寄与を考慮できるようにした。また、公開された大規模データの解析を一部前倒しで実施した。具体的には、原核生物の翻訳開始効率、スプライシング効率、リボザイムの自己切断活性についてのデータに開発したアルゴリズムを適用した。さらに、RNA構造プロービング実験(SHAPE-seqなど)のデータを本アルゴリズムに取り込むための予備実験を行った。そして、ここまでの解析結果を論文としたまとめて発表するとともに、提案アルゴリズムを実装したソフトウェアを開発した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度は、基礎となるアルゴリズムの開発と拡張を行った。アルゴリズムの開発が順調に進んだため、前倒しで公開された大規模データの解析を行った。そして、解析した大規模データの全てにおいて、我々の方法が有効であるという結果を得た。具体的には、これまでに発見されていた2次構造に関する知見を抽出できるだけでなく、さらに詳細な2次構造的特徴の抽出ができることが示唆された。RNA配列と活性に関する大規模データを統一的な枠組みで解析するためのアルゴリズムは新規性が高い。また公開された大規模データへの解析結果も良好であったため、アルゴリズムおよび、その適用結果を論文としてまとめ投稿し採択された。以上により、概ね順調に推移していると評価する。
|
今後の研究の推進方策 |
今年度はアルゴリズムの開発を進め、その有用性を示すことができた。今後はソフトウェアの整備を進める。すでに提案アルゴリズムを実装したソフトウェアのプロトタイプ開発しているが、広く使われるものにするためにはさらなる開発が必要である。また、新たに公開される大規模データがないかを常に観察し、適用可能なデータについては迅速に本アルゴリズムによる解析を行う予定である。アルゴリズムの改良については、すでに検討したRNA構造プロービング実験の取り込みについて、引き続き検討を進める。また、本アルゴリズムの適用範囲の拡大についても検討を行う。具体的には、長さが異なるRNAや、シュードノット構造を持つRNAに対する拡張について検討する。
|
次年度使用額が生じた理由 |
論文掲載が年度内に間に合わなかったため、論文掲載料(オープンアクセスライセンス費用)の支払いのための費用を次年度に繰り越した。これについては、すでに支払いを済ませている。
|