多数のタンパク質立体構造の同時構造重ね合わせにおいて、構成尤度(composite likelihood)に基づく理論的枠組みを平成28年度までに完成させた。この手法は、(1)結晶構造での位置ディスオーダーや占有率を明示的に取り入れていること、(2)作業用分散行列の非対角成分も考慮していることが、従来法にはない特長である。平成30年度は、この理論に基づく同時多重構造重ね合わせ法を実装し、その有効性の検証のための数値実験を行った。その結果、(1)については、それが有効に働くことを確認した。一般に、膨大な数の結晶構造に、0超1未満の占有率の原子が含まれている。これらの多重性はタンパク質機能においても重要かもしれない。本研究により、開発した同時多重構造重ね合わせはそれらの解析に有用と思われる。また、(2)についても、非対角成分を考慮することで、対象構造数が多数の場合(100程度以上の場合)は、重ね合わせの質が、程度は大きくはないが、改善することが確認できた。ただし、非ゼロ成分数は少数に限定することが有効であった。その手段として、今回は、相関行列上での閾値法と条件数による正則化を開発し、利用した。重ね合わせ後の平均構造や分散、相関行列の精度に改善がみられた。本手法は、特に、分子動力学計算のトラジェクトリーの解析など、対象構造が極めて多数の場合に、特に有用であると思われる。また、今回の数値実験により、一般に重ね合わせ法にはover-fittingに類似した分散要素のバイアスがみられることを明らかにした。その後の主成分分析などに影響が懸念される。以上の結果は投稿中である。さらに、本プログラムにはL21重みを導入した「外れ分子」に対してロバストな重ね合わせ法も実装し、有効性を確認した。
|