2019 Fiscal Year Research-status Report
混合正則化モデリングを軸としたヘテロ生物データ群からの機械学習の研究
Project/Area Number |
17K00407
|
Research Institution | Kyushu University |
Principal Investigator |
丸山 修 九州大学, 芸術工学研究院, 准教授 (20282519)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | モチーフ / 崩壊型ギブス・サンプリング / 結合部位 / 依存関係モデル / E3ユビキチン・ライゲース / たんぱく質disorder / 混合正則化 / バイオインフォマティクス |
Outline of Annual Research Achievements |
正則化モデリングとは,べき乗則や L1 ノルムなどの正則化項を評価関数に加えて自然な解を同定する技法であり,混合正則化モデリングとは正則化項を複数組み合わせるモデリングである.本研究の目的は,ヘテロな生物データ群からの予測問題に対して,(1) 混合正則化モデリングを軸とした評価関数の設計技法の深化と,(2) (1) の評価関数のための最適化アルゴリズムの構築を行う.以上を通して,大量に蓄積されつつある生物データ群からの予測問題のための機械学習アプローチの方法論的基盤を確立することである. 当研究課題は,この3年間,配列モチーフ発見ツールである「E3ユビキチン・ライゲース結合部位予測のための崩壊型ギブス・サンプリング・アルゴリズムDegSampler」の開発を集中的に行ってきた.確率配列モチーフのでファクタスタンダードは位置依存スコア行列(PSSM; position-specific scoring atrix)である.これは各位置に独立なカテゴリカル分布が対応することにより構成されるモデルである.このモデルの欠点は,モチーフの位置間の独立性である. そこで本年度は,予測精度向上のアプローチとして,位置依存スコア行列(PSSM; position-specific scoring atrix)の相異なる位置に出現する文字間の依存関係を許す配列モチーフモデルを定式化し,これを最適化するアルゴリズムを開発した. そして次の結果を得ている:(1)調査対象として選んだ36種類のE3特異的基質タンパク質配列集合に対するE3ユビキチン・ライゲースの結合部位の予測精度は,DegSampler version 3とその前のversionとほぼ同程度であった.(2)しかしながら,36種類の結果を個別に見ていくと,予測精度が大きく違っている場合が36個中9個存在した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本課題では,E3ユビキチン・リガーゼが結合する基質の部位と配列モチーフを同時に推定する崩壊型ギブス・サンプリング・アルゴリズム DegSamplerのシリーズを開発してきている.このツールは次の特徴を有している: (1) アミノ酸の化学特性に基づく尤度関数を有している. (2) モチーフ出現位置の事前分布として,与えられたタンパク質配列の各位置がdisorder領域に含まれる可能性やdisorder領域におけるE3結合可能性などの様々な事前情報を活用することが可能である. (3) 崩壊型のギブス・サンプリングであるため計算の効率が高く結果のブレが相対的に少ない. 本年度は,このような特徴をもつDegSamplerに対して,これまでの配列モチーフ・モデルである位置依存スコア行列(PSSM)を「モチーフ内の位置のペアワイズ依存関係を許したより複雑なモチーフ・モデル」を具体化した尤度関数に改善するとともに,対応する文字ペア上のディリクレ事前分布を構成し,これをDegSampler version 3として発表した.36種類のE3特異的基質タンパク質配列集合に対するE3ユビキチン・ライゲースの結合部位の予測精度は平均的には前バージョンと同程度であったが,予測精度が大きく違っている場合が36個中9個存在することが分かった.これはモチーフ・モデルごとに特異不得意があることと示唆するという興味深い結果である.
|
Strategy for Future Research Activity |
さらにE3結合部位のギブス・サンプラーの改良を続行するとともに,当初の予定通り,ベイズ推定の技法を駆使し,ヘテロな大量生物学的データからの予測手法の開発を行う.この際に,評価関数の設計において,混合正則化を含む様々なモデリングを考察する.
|
Causes of Carryover |
次年度使用額が生じた理由は,当初予定していた国際学会での結果発表が実現しなかったからであるが,これは次年度の成果発表の旅費費用として適切に使用する計画である.
|
Research Products
(2 results)