2014 Fiscal Year Research-status Report
アミノ酸残基環境ファクターとリガンド相互作用形成能の相関解析
Project/Area Number |
26870848
|
Research Institution | The Institute of Physical and Chemical Research |
Principal Investigator |
高谷 大輔 独立行政法人理化学研究所, ライフサイエンス技術基盤研究センター, 研究員 (50571395)
|
Project Period (FY) |
2014-04-01 – 2016-03-31
|
Keywords | 相互作用記述子 / 機械学習 / タンパク質 / リガンド |
Outline of Annual Research Achievements |
平成26年度は主にデータの収集と予測モデル構築を行った。リガンドと結合しやすいアミノ酸残基予測用のトレーニングセットは実験構造既知のタンパク質立体構造を選別して作成した。Support Vector Machine(SVM)、Random Forest(RF)等の機械学習法を判別に用い、記述子選定及び予測精度測定を同時に行い、最適な予測モデルの構築を試みた。この時、各記述子の予測精度への影響、物理化学的現象との関連性を検討した。 まず既存タンパク質-リガンドデータの準備をおこなった。本研究の機械学習用データセットは主に、PDBに登録されたX線結晶構造解析により得られたタンパク質-リガンド座標を収集した。アミノ酸配列類似性に基づきクラスタリングし、複数の閾値を設定、低分子の抽出を行いタンパク質及びリガンドのデータを得た。これらのデータセットを基に相互作用残基の抽出及び記述子の計算をおこなった。またキナーゼやプロテアーゼ等のよく知られたターゲットについてその阻害剤のデータをChEMBLから収集した。 相互作用しやすい残基の定義と記述子の決定及び計算判別モデルの構築と性能評価をおこなった。タンパク質-リガンド結合情報を受容体及びリガンドの原子タイプを参考にし「結合」の定義を行い、その後結合しやすい残基の選定を行った。この時、タンパク質側は主鎖の原子由来のタイプとリガンド原子は既存のファーマコフォアを参考にして、総当たりで距離を計算し、結合距離が一定距離にあるならば相互作用残基とした。相互作用ペアーごとに予測モデルを構築し、予測性能の分布を調べた。記述子としては、PSSM、ASA等を用い、ROCスコアを指標とし予測精度を測定した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成26年度は主にデータ収集とモデル構造の精度向上を目標とした。まず、データセットの準備をおこなった。2014年4月時点のPDBに登録されていたタンパク質のX線結晶構造を入手した。これは数万個の低分子を含んでおり、このうち溶媒分子等は除した。次にアミノ酸配列類似性によるクラスタリングを行い、40%を閾値とした場合は9,687クラスタ、95%では14,773クラスタをえた。この数は機械学習モデル作成に十分であると考えた。 結合の定義では、タンパク質側は主鎖の原子由来の4つのタイプとリガンド原子は水素供与性原子, 水素受容性原子,芳香性原子、塩基性原子、酸性原子等のタイプに分類し、結合距離が一定(一例として3.6A)以内であればPositive残基とした。それ以上の距離ある場合をNegative残基とした。また機械学習モデル作成では、計算速度は試行回数に影響があった。そこで複数の機械学習法の検討を行った。試行した結果、RFは速度計算速度がSVMに比べて速かったためRFを用いた。PSSMやASA等の記述子を計算し、機械学習モデルの作成にはRを用いた。各原子間結合ペアーについての5分割したデータセットを用いたテストでは良好なROCスコアをもつモデルを複数得ることができた。またこの結果から、物理化学的に意味のある予測結果をえるためには、さらに物理化学的な記述子を含め、各記述子の影響を明らかにする必要があると考えた。次年度において低分子ドッキング時のスコア関数等の指標と実験値との相関の改善等により本モデルの有用性を示す事を計画している。そこで、相関への影響を調べるエネルギー測定用の分子を残基周辺に発生させ、分子力場による相互作用エネルギーを計算するプログラムを作成した。この組み合わせにより、今後の予測モデルの質の向上を期待している。
|
Strategy for Future Research Activity |
平成27年度は前年度に構築した予測法を用い、計算によって得られるドッキングスコア等の相互作用スコアの各評価項目について重み付け等の再検討を実施する。これは計算値とKi値等の阻害活性を示す実験値との相関係数の変化を指標として行う予定である。さらに前年度に作成した物理化学的記述子をくわえ、本予測法の性能向上を目指す。また相互作用に関与する残基及び予測された重要度の妥当性を検討し、本手法の有用性を示していく。 まず前年度の予測モデルに物理化学的記述子を加える事から、それらの性能に及ぼす影響を調べる。エネルギー計算に使われる分子については複数の報告がある事から、計算に用いる分子種を選定する必要があるが、これは前年度に用いた性能の指標を用い予測精度に及ぼす影響を考慮して決定する。ドッキングスコア等の計算値と実阻害活性値等の実験値との相関向上研究の実施では、実験的に立体構造が得られているタンパク質を対象としてChEMBL等から収集した既知阻害剤のデータセットを用いて実施する。この時、各スコア評価項目に対して結合しやすい残基に応じた重み設定が可能か検討する。一例として、前年度に収集したタンパク質について予測精度検証を行い、本研究で構築した手法が既存のタンパク質-リガンド間相互作用予測方法へ与える影響を示す。 また結合しやすい残基周辺にさらに原子が配置できる空間がある場合、そのリガンドの活性向上の余地を持つ可能性が考えられる。そこでそれらリガンドの選定を行い、新規の創薬ターゲット候補の提案を行う。これは前年度に得たPDB及びChEMBL等のデータセットに対して予測モデルを適用する事により実施し、結合しやすい残基の結合部位における分布等を考慮しておこなう。これらにより本手法による予測法の有用性を示していきたい。
|
Causes of Carryover |
計算機の入札等の結果、想定より安価な値段で計算機を入手した等の理由により端数が生じたため。
|
Expenditure Plan for Carryover Budget |
残額が小さいので、特に使用計画に変更はない。BD-R等の外部記憶装置の代金として使用する。
|