2020 Fiscal Year Annual Research Report
Study on machine learning approaches for heterogeneous biological data based on mixing regularization models
Project/Area Number |
17K00407
|
Research Institution | Kyushu University |
Principal Investigator |
丸山 修 九州大学, 芸術工学研究院, 准教授 (20282519)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | モチーフ / 崩壊型ギブス・サンプリング / 結合部位 / E3ユビキチン・ライゲース / タンパク質disorder / 混合正則化 / バイオインフォマティクス / デグロン |
Outline of Annual Research Achievements |
正則化モデリングとは,べき乗則やL1ノルムまたはデータに対する知見に基づく独自の正則化項を評価関数に加えて自然な解を同定することを目指す技法であり,混合正則化モデリングとは正則化項を複数組み合わせるモデリングである.本研究の目的は,ヘテロな生物データ群からの予測問題に対して,(1)混合正則化モデリングを軸とした評価関数の設計技法の深化と,(2)(1)の評価関数のための最適化アルゴリズムの構築を行う.以上を通して,様々な生物データ群からの予測問題のための機械学習アプローチの方法論的基盤を確立することである. 当研究課題では,この4年間,配列モチーフ発見ツールである「E3ユビキチン・ライゲース結合部位予測のための崩壊型Gibbsサンプリングアルゴリズム DegSamper」の開発を集中的に行ってきた. 最終年度に実施した研究内容は次である:各E3ユビキチン・ライゲースが結合している基質タンパク質の情報はデータベースE3Net(http://pnet.kaist.ac.kr/e3net/)から得ている.一方,これら基質タンパク質が有するdegron(デグロン)の結合部位情報は,データベースEukaryotic Linear Motif (ELM) resource(http://elm.eu.org/)から得ている.これらのデータを用いて,36種類の入力集合に対して計算機実験を実施したところ,完全一致の形で結合部位を同定する場合があることが判明した.しかし,一方で,まったく予測ができない入力データも多数あることが判明した.原因としては,データベースE3NetとELMの情報の不完全性にあるのではないかと考えている.なお,最終年度に結果をまとめて雑誌に投稿したが掲載を断られたため現在鋭意内容を改良し再投稿する予定である.
|
Research Products
(1 results)