1990年代以降、薬剤-タンパク質間相互作用を単一の標的タンパク質にとどまらずプロテオーム全体に対して網羅的に解析するポリファーマコロジーのコンセプトが注目を集めている。本研究では、機械学習モデルを用いて多数のタンパク質を対象とした低分子化合物-タンパク質間相互作用プロファイルを学習することでポリファーマコロジーを考慮して薬剤の副作用を予測する新規手法を開発した。具体的には、予測対象の分子に対して低分子-タンパク質間相互作用データベースChEMBLの情報を用いて326種のタンパク質に対する阻害活性の有無を構造記述子ECFP_4に基づき予測し、計算された326次元の相互作用プロファイルを説明変数として、薬剤副作用データベースSIDER2に登録された129種の薬剤副作用に関するランダムフォレストを用いた学習モデルを構築した。一般に構造記述子を用いた統計的予測モデルは学習に用いた化合物と構造類似性の低い化合物に対して予測性能が低下することが創薬における新規候補化合物の探索などにおける問題として指摘されている。学習セットとテストセットに類似したデータが入らないように調整するLeave-cluster-out交差検定を用いて評価したところ、ECFP_4を直接用いる機械学習モデルのROCスコアが0.634だったのに対して本手法では0.693とより高いスコアを記録し、既知化合物との構造類似性が低い新規化合物に対しても高い精度での予測が可能な手法であることが示された。
|