本年度は機械学習手法であるInductiveLogicProgramming(ILP)を用いたタンパク質と化合物の結合予測に焦点を当てた.SVMなど通常の機械学習による判別モデルは,創薬研究者にとってブラックボックスである.一方,ILPは結合の規則が明示されるため視覚的に分かりやすく創薬研究者にも理解しやすい.そこで,ILPでは化合物の構造を学習し,SVMでは化合物の物理化学的性質を学習するという学習データの違いに焦点を当て,2種の機械学習の組み合わせを検討した.学習データが異なるので,判別結果には違いが生じるはずである.組み合わせを行なうことで,SVMの高精度な予測とILPの表現力を持ち合わせた判別モデルを作成した. まず,DUD-E(リガンドデコイデータベース)からリガンドとデコイの構造情報を取得した.この構造情報にテキスト処理を行ったものがILPの学習データとなる.SVMの学習データである物理化学的性質は構造情報をDiscoveryStudio(モデリングシミュレーションソフト)により計算される.次に各学習データから予測モデルを作成した.最後に予測モデルをテストデータに適用し,得られた2つの予測結果の組み合わせを行なった.予測結果が一致する場合はその予測値を採択するが,異なる場合は予測結果の選択を行なう必要がある.SVMには予測の信頼度を示す推定確率があり,組み合わせにはこの値を閾値として用いた.推定確率が50%の時SVMの予測はどっちつかずの状態であり,100%に近づくにつれ信頼度が増す.そこで複数回実験を行い最適な閾値の探索を行い,閾値を80%と設定した:推定確率が80%を超える場合SVMの予測結果を採択し,違う場合ILPを採択した. 手法の評価を行なうため,DUD-Eの10個のタンパク質に対して,交差検証を使用して予測精度を求めた.結果,1つのデータでの学習と比較して精度が改善されたタンパク質は9個あり,予測精度はどれも97%を超えていることから本手法は有用であるといえる.
|