公募研究
新学術領域研究(研究領域提案型)
本研究の主目的は、RNA結合タンパク質(RBP)結合サイト周辺に頻出する配列・構造モチーフを、CLIP-Seqデータから発見するための、RNAインフォマティクス技術の開発を行い、RBPのターゲット認識機構の解明を目指すことであった。この目的のために、二次構造のエネルギーモデルによる二次構造確率の計算と、RBP結合部位の配列特異性を表す重み行列(Position Specific Weight Matrix、PSSM)の推定とを条件付きランダム確率場(Conditional Random Fields、CRF)の枠組みで同時に行うアルゴリズム(RNAelem)の開発と実装を行っている。今年はRNAelemの最初の実装に成功し、シミュレーションデータを使った精度評価を行った。すると最適化されたパラメータは局所最適解に陥っており、精度が既存プログラムのものより劣ることがわかった。このため実装を変更し、バックグラウンド配列を、ポジティブデータのランダムシャッフルで置き換え、最急降下法の繰り返し計算のたびに、バックグラウンド配列をシャッフルし直す確率最適化法を用いることにした。すると、局所最適解に陥ることが少なくなり、精度が大幅に向上した。現在は、CLIP-seqの実データにRNAelemを適用する実験を行っている。課題は沢山のモチーフ候補パターンから尤もらしい候補を選ぶ手法であり、これについて検討を行っているところである。この他、更なる精度向上のために、ポジティブデータをランダムにバッチに区切り、確率最大可法を適用する手法の開発を進めているところである。
28年度が最終年度であるため、記入しない。
すべて 2017 その他
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件、 謝辞記載あり 1件) 備考 (1件)
Bioinformatics
巻: 印刷中 号: 15 ページ: 2314-2321
10.1093/bioinformatics/btx194
https://github.com/hmatsu1226/SCODE