2018 Fiscal Year Research-status Report
混合正則化モデリングを軸としたヘテロ生物データ群からの機械学習の研究
Project/Area Number |
17K00407
|
Research Institution | Kyushu University |
Principal Investigator |
丸山 修 九州大学, 芸術工学研究院, 准教授 (20282519)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 混合正則化 / モデリング / バイオインフォマティクス / 崩壊型ギブス・サンプリング / 結合部位 / E3ユビキチン・ライゲース / タンパク質disorder |
Outline of Annual Research Achievements |
正則化モデリングとは,べき乗則や L1 ノルムなどの正則化項を評価関数に加えて自然な解を同定する技法であり,混合正則化モデリングとは正則化項を複数組み合わせるモデリングである.本研究の目的は,ヘテロな生物データ群からの予測問題に対して,(1) 混合正則化モデリングを軸とした評価関数の設計技法の深化と,(2) (1) の評価関数のための最適化アルゴリズムの構築を行う.以上を通して,大量に蓄積されつつある生物データ群からの予測問題のための機械学習アプローチの方法論的基盤を確立することである. 本年度はここ数年集中的に取り組んだ「E3ユビキチン・ライゲース結合部位予測のための崩壊型ギブス・サンプリング・アルゴリズムDegSampler」を発表した. この手法は次の3の特徴を有する.(1)配列モチーフの出現位置の事前情報は通常一様分布であるが,本研究では,タンパク質の各サイトのdisorder値を基にした事前情報を定式化している.これにより,E3ユビキチン・ライゲースの結合部位の予測精度が格段に向上することを確認している. (2)タンパク質配列を構成するアミノ酸残基はそれぞれ特有の化学的特性を有する.とくに,結合部位の既知のコンセンサス・パターンを見ると,各サイトは極性,無極性,正電荷,負電荷で分類できることが分かる.そこで,この特性を数理モデルで捉えた尤度関数を定式化し提案手法DegSamplerの事後確率に組み込んでいる. (3)タンパク質の機能領域に関するデータベースであるELM(Eukaryotic Linear Motif) を用いて,提案手法DegSamplerの性能を網羅的に評価し,既存手法より優れていることを確認している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
E3ユビキチン・リガーゼが結合する基質の部位を予測する配列モチーフを推定する崩壊型ギブス・サンプリング・アルゴリズム DegSamplerを提案することが出来た.DegSamplerは次の特徴を有している: (1) アミノ酸の化学特性に基づく尤度関数を有している. (2) モチーフ出現位置の事前分布としてタンパク質配列の各位置のdisordernessを利用することが可能である. (3) 崩壊型のギブス・サンプリングであるため計算の効率が高く結果のブレが相対的に少ない. 以上の特徴をもつDegSamplerを用いた36個のE3に対する計算機実験を行ったところ,既存手法よりも格段に良い予測精度を得ている.
|
Strategy for Future Research Activity |
当初の予定通り,ベイズ推定の技法を駆使し,ヘテロな大量生物学的データからの予測手法の開発を行う.この際に,評価関数の設計において,混合正則化を含む様々なモデリングを考察する.
|
Causes of Carryover |
次年度使用額が生じた理由は,当初予定していた国際学会での結果発表が実現しなかったからであるが,これは次年度の成果発表の旅費費用として適切に使用する計画である.
|
Research Products
(3 results)