研究実績の概要 |
生物は限られた数の基本部品から非常に多くの天然物を作る。本研究では生合成経路の解明および人為的な再設計を支援することを目的に、複雑骨格分子の生合成単位を自動的に予測する手法の開発を進めた。 MOLファイル(MDL V2000)から原子と結合の情報を取得し、NetworkXによって化合物をグラフ化した。その後、任意の結合を切断し化合物断片に分解、各断片を RDKit fingerprint, Avalon fingerprint, MACCS keys, Morgan fingerprint, Pattern fingerprint, KCF-S などのベクトルとして表現した。続いて、KEGG内の代謝経路既知の化合物(2113個)を候補化合物とし、各化合物断片と候補化合物群との類似度をTanimoto係数で評価した。各化合物断片において類似度が最大の化合物を抽出した。この過程を遺伝的アルゴリズムで最適化した。結果として、KEGG内の代謝経路未知の化合物2012個において、アルカロイド、フラボノイド、フェニルプロパノイド、テルペノイドに分類される化合物において90%以上の正解率を示した。この手法の利点として、結合を切るか切らないかの組み合わせは膨大な数になるが、それら全てのパターンを試さず最適化ができることである。また計算にかかる時間は基本的には世代数に依存し、どの化合物に対しても同程度の計算時間で済む。遺伝的アルゴリズム特有の問題点として、結果のランダム性と評価関数の設定に対する課題がある。また、原子数の多い化合物や複雑な環構造を持つ化合物に対しては、全く異なる生合成単位を予測してしまうことがある。Fingerprintの設計と類似性指標の問題が考えられ、それぞれ適切に選択しなければならない。 以上の知見を踏まえ現在はあらかじめ候補断片群を生成する別法を開発中である。
|