当該年度では、昨年度に引き続き公的な活性実験データベースであるChEMBLとタンパク質立体構造データベースであるPDBを用いて新たなデータセットの構築を行った。こちらのデータセットの作成では立体構造があるタンパク質がターゲットとなっているChEMBL上のエントリを収集し、その実験的に明らかになった活性、非活性化合物に加えて非活性化合物候補としてデコイ化合物を化合物データベースより選択することで機械学習に十分な数のデータとなるようにシステムを構築した。デコイ化合物選択においては分子量などの物性を活性化合物と同じ分布とするだけではなく、活性化合物間の類似度と同様の類似度を持つように選択を行うことで、近年問題となっているデコイ化合物のバイアスの問題を回避している。また、データセット構築の際にはその用途によって活性化合物やターゲットタンパク質の冗長性排除の程度や類似性の判定基準が異なるため、ユーザの用途に応じたデータセットが自動生成できるようにWebインタフェースを備えたシステムを開発した。 また、本研究で得られたタンパク質構造情報を深層学習で利用する知見を応用し、タンパク質立体構造予測における予測構造モデルの評価問題について、3次元畳み込みニューラルネットワークを用いた評価モデルにタンパク質配列の進化的な情報を入力として加えることでより精度の高いこの手法を開発した。本手法は単一のタンパク質構造から精度を推定する手法の中で高い精度を実現しており、タンパク質立体構造予測のベンチマークであるCASP14においても上位の成績をおさめた。
|