タンパク質を識別するために、表面の物理化学的、構造的、幾何学的記述子を利用し、表面特性を定量的に分析した。まず、いくつかの教師あり機械学習アルゴリズム(KNN、LR、RF、SVM)を使用して、HACタンパク質と細胞外タンパク質のバイナリ分類問題を解決した。次に、優れたモデル性能と高いモデル解釈可能性を考慮して、記述子の最終的な特徴重要度分析のためにロジスティック回帰(LR)を選択し解析を行った。その結果電荷に関連する記述子は正の相関を示したが、疎水性、Bファクター、ベータ構造の割合、粗さ、および無秩序領域の割合はHACタンパク質に対して負の相関を示した。また、HACタンパク質の表面において、アミノ酸E、K、Lの各集団とよく折りたたまれた二次構造が、その親水性とコンパクトに折りたたまれた構造において重要な役割を果たしていることが判明した。さらに、HACタンパク質の表面からは、限られたタンパク質の柔軟性と極端な正味電荷が観察され、これは以前の研究で説明されている細胞質タンパク質の混雑した環境での最適化を説明することが出来た。上記の結果によって、表面記述子を用いて、混雑した細胞環境におけるタンパク質表面の特性を識別し、定量化し、説明することができることを示した。
|