研究課題
特別研究員奨励費
非コードRNA(ncRNA)は、タンパク質に変換されない小さな非コード配列であり、多くの病気の遺伝子発現の調節に関与している。非コードRNAは、機能に応じていくつかのタイプに分類される。類似した配列と構造を持つncRNAは類似した機能を持つことが期待されるため、ncRNAのクラスター化は機能を知るための最初のステップとして役立つ。 ncRNAの分類のために多くのツールが開発されてきたが、実行時間と分類の正確さにおいて多くの課題がある。多くの分類アルゴリズムではRNA配列の類似性を計算するために配列アラインメントを実行しているため実行時間が長くかかる。更にこれらのアルゴリズムの多くは既存のncRNAクラスのラベルをを用いた 教師あり学習を採用しているため新規RNAクラスの探索を行うことは困難である。本年度はこれまで作成したRNA二次構造予測アルゴリズムを基盤として、自然言語処理の分野で広く運用されているBERT事前トレーニングに基づく新しいncRNAs分類アルゴリ ズムであるBERTCLUSTを開発した。BERT事前トレーニングは既存のRNAクラスラベルを使用しない、教師なし学習を採用している。大量のncRNA配列を用いて教師なし学習を実行することにより、既存の方法よりもncRNAクラスの分類精度が向上した。更に、BERT内のattentionメカニズムを用いることでncRNAクラスの分類について重要な部分配列を可視化することに成功した。BERTによる塩基の埋め込みは、word2vecなどの既存の埋め込み手法に比べて、優れたクラスタリング精度を達成した。
令和2年度が最終年度であるため、記入しない。
すべて 2021 2019 2018
すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (3件) (うち国際学会 2件)
Nature Communications
巻: 12 号: 1 ページ: 941-941
10.1038/s41467-021-21194-4
Journal of Bioinformatics and Computational Biology
巻: 16 号: 06 ページ: 1840025-1840025
10.1142/s0219720018400255