本研究は、化合物ビッグデータを利用して情報処理技術を用いた解析を行うことで、過去に蓄積されたデータから効率よく生物活性物質を開拓する手法の開発を目的とする。 本研究ではまず、化合物データベース・天然物データベースおよび既報の論文から約450種類のトリテルペンの活性情報を取得し、試験プロトコルや活性試験結果について精査したうえでデータセットを作成した。次に、得られた化合物データについて、その化合物の部分構造や構造的特性を反映した構造記述子の算出を行った。得られた構造記述子と活性情報について、各種機械学習手法を用いることで、活性の有無(強弱)判別モデルを作成した。この活性判別モデルではoleanane型やdammarane型など様々な骨格のトリテルペンやステロール、また、それらの配糖体についても予測が可能である。つづいて、ヒユ科植物 Pfaffia glomerataから単離された11種のトリテルペンおよびトリテルペノイドサポニンについて活性試験を実施し、活性試験による実測値と判別モデルによる予測結果の比較検討をすることで検証を行った。その結果、予測による結果は活性試験の結果と高い整合性を示すことが見出された。くわえて、今回作成した活性判別モデルを利用して、活性の発現に影響を与える化合物の構造特性についても明らかにした。本研究で作成した判別モデルは、特に活性がある化合物を高い正答率で予測できたことから、誘導化等による活性化合物デザインにおいて応用できる可能性がある。本研究成果が活性物質の開拓の効率化に貢献することが期待される。
|