本研究は、ケミカルゲノミクス情報として集積された大量の化合物-タンパク質相互作用情報から相互作用パターンを包括的に抽出し、それらに基づく化学構造-標的タンパク質-活性値の多次元構造活性相関モデルの構築を目指すものである。そこで当該年度では、これまで研究開発してきた相互作用予測の拡張として、定量性パラメータを導入するために、活性値が判明しているペアを学習サンプルとしてリグレッサーを構築し、活性未知のペアについて活性値を予測するモデルを構築した。予測モデルの性能評価をするために、ここでは、シトクロムP450(CYP)の阻害活性データへの適用を試みた。予測性能は、すべての属性を用いる場合と、徐々に属性数を削減した場合について、リグレッサーとして、サポートベクトル回帰(SVR)を用いて評価した。 これらはカーネルに基づくリグレッサーとして代表的なものであり、諸問題において高い予測性能が報告されていることから、本問題においても有用であると考えられる。なお、属性選択の効率的な計算が可能となるのは、化合物のカーネルが線形カーネルの場合に限定されるが、属性選択とリグレッサーによる予測は独立したプロセスであるので、予測には線形カーネルに加えてRBFカーネルも用いた。予測性能の指標としては、r2値を用いた。検証試験は、n=798のサンプルを、学習サンプルとテストサンプルにランダムに6:1に分割し、学習サンプルのみを用いて属性選択およびリグレッサーの構築をおこない、テストサンプルに適用した。このプロセスを20回繰り返し、r2値の平均、標準偏差を算出した。その結果、タンパク質カーネルによって、性能に多少の違いはあるが、r2値の平均値としては、線形カーネルでは最大0.48、RBFカーネルでは最大0.60程度の比較的高い値が得られた。
|