蛋白質の立体構造の比較は、二つの蛋白質の一方に並進と回転を施してもう一方に重ね合せ、ズレの具合いを調べるのが基本である。分子動力学シュミュレーションやNMR構造では多数の構造が得られるため、多数の構造の同時重ね合せの必要が生じてきた。この場合でも、通常は、等分散を仮定した最小二乗法が用いられているが、最近では、より精密に、異分散性を何らかの手段で考慮に入れることも提案されている。本研究では、これをさらに進めて、複数の蛋白質の各々複数の構造の同時重ね合せを実現するまったく新規な手法の開発を目標とした。本手法の特徴は、各々の蛋白質の特徴的ズレを表す確率変数(分子別変動)と末端部やループ部で大きなゆらぎを説明するための誤差変動(分子内変動)から成る混合効果モデルに対して、分子別変動のL1正則化により特徴的ズレのある部分を限局化・抽出することである。 今年度は、理論面でのさらなる検討ならびにプログラムの作成を行った。すなわち、まず、分子内変動の分散行列を対角行列に近似した。それにより、分子別変動のL1正則化問題が、それぞれの変数についての独立した問題となり、単純な2次方程式の最小化問題として取り扱うことができた。また、分子内変動については、基本的には標本分散行列の縮小による方法を採用したが、さらに、その行列を分散行列とスケール因子に分解し、スケール因子について最尤推定量を用いることで、柔軟なL1正則化が可能になった。十分な検証までには至っていないが、数値実験で摂動を与えた部分を抽出でき、摂動の量や分散の推定値も妥当であった。本手法は、蛋白質分子に特徴的な構造(分子間変動のズレ)を、全体の構造情報を利用してBayes的に推定するものでもあり、構造の抽出ならびに情報の補完を特徴とするユニークな解析法と思われる。
|