研究課題/領域番号 |
18J21767
|
研究機関 | 慶應義塾大学 |
研究代表者 |
秋山 真那斗 慶應義塾大学, 理工学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2018-04-25 – 2021-03-31
|
キーワード | RNA / バイオインフォマティクス / 深層学習 |
研究実績の概要 |
非コードRNA(ncRNA)とはタンパク質に翻訳されないRNAの事である。以前は、非コーディングRNA(ncRNA)はジャンク遺伝子または転写ノイズと見なされていた。しかし、近年これらの非コーディングRNAは、翻訳制御やRNA遺伝子のメチル化など、細胞内で機能を提供する事が分かって来た。ハイスループットRNAシーケンスにより、数十万の非コーディングRNA(ncRNA)が発見されたが、これら膨大な量のncRNAのデータのため、ncRNAの機能を見つけることは困難な作業である。 ncRNAには様々なクラスが存在しているので、ncRNAsの適切な分類アルゴリズムを構築することは、新たなncRNAクラスの発見への強力な足がかりとなる。近年、多くのncRNAの分類のためのアルゴリズムが開発されているが実行時間や分類の正確さにおいて多くの課題がある。これらのアルゴリズムの多くは学習の際にncRNAのクラスラベルを与えられる、教師あり学習である。新規ncRNAのクラスの探索を目標とする場合、既存のncRNAのクラスラベルを用いることは好ましくない。さらにこれらのアルゴリズムでは配列の類似性を求めるために多くの場合ペアワイズ配列アラインメントかマルチプル配列アラインメントを行なっている。ペアワイズアラインメントは動的計画法を用いた場合O(MN)(M,Nは配列長)の計算量を必要とするため、長いRNA配列を含んだ大規模データセットのncRNAの分類に長い時間がかかる。 我々は大量のRNA配列を用いた教師なし深層学習によりこれらの問題を解決し、高精度で高速なRNAの分類手法を提案する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
我々はRNA配列および構造を大量に用いた教師なし学習に基づく新しいncRNAs分類アルゴリズムの構築を目指している。大量のncRNA配列を用いて教師なし学習を実行することにより、既存の方法よりもncRNAクラスの分類精度が向上することがわかった。また、シーケンスアラインメントを使用しないことで、高速なクラスタリングが実現した。進捗状況としては高精度のクラスタリングアルゴリズムを構築できたという点で当初の目標を達成できたと言える。
|
今後の研究の推進方策 |
これまで、我々のアルゴリズムが高精度かつ高速でncRNAの分類ができることが分かった。現在のところ対象としているRNAは400塩基以下の比較的短いRNAであり、塩基長の長いlncRNAを含めていない。近年lncRNAの機能解明の需要は増しており、本アルゴリズムをlncRNAの機能分類に適用したい。また、バイオインフォマティクスの分野において必須である意味解釈性をアルゴリズムに搭載したい。具体的には各RNAfamilyに特徴的な構造や配列を抽出することを目標としている。これらのアルゴリズム拡張を経て、本年開催のGIW2020への論文投稿および学会発表を目指す。
|