2017 Fiscal Year Research-status Report
Generic prediction of natural product biosynthetic pathways from large-scale measurement data
Project/Area Number |
17K07260
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小寺 正明 東京工業大学, 生命理工学院, 講師 (90643669)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 生合成経路 / 複雑骨格分子 / 生合成単位 / 予測 / NetworkX / 化合物 / Fingerprint / 遺伝的アルゴリズム |
Outline of Annual Research Achievements |
生物は限られた数の基本部品から非常に多くの天然物を作る。本研究では生合成経路の解明および人為的な再設計を支援することを目的に、複雑骨格分子の生合成単位を自動的に予測する手法の開発を進めた。 MOLファイル(MDL V2000)から原子と結合の情報を取得し、NetworkXによって化合物をグラフ化した。その後、任意の結合を切断し化合物断片に分解、各断片を RDKit fingerprint, Avalon fingerprint, MACCS keys, Morgan fingerprint, Pattern fingerprint, KCF-S などのベクトルとして表現した。続いて、KEGG内の代謝経路既知の化合物(2113個)を候補化合物とし、各化合物断片と候補化合物群との類似度をTanimoto係数で評価した。各化合物断片において類似度が最大の化合物を抽出した。この過程を遺伝的アルゴリズムで最適化した。結果として、KEGG内の代謝経路未知の化合物2012個において、アルカロイド、フラボノイド、フェニルプロパノイド、テルペノイドに分類される化合物において90%以上の正解率を示した。この手法の利点として、結合を切るか切らないかの組み合わせは膨大な数になるが、それら全てのパターンを試さず最適化ができることである。また計算にかかる時間は基本的には世代数に依存し、どの化合物に対しても同程度の計算時間で済む。遺伝的アルゴリズム特有の問題点として、結果のランダム性と評価関数の設定に対する課題がある。また、原子数の多い化合物や複雑な環構造を持つ化合物に対しては、全く異なる生合成単位を予測してしまうことがある。Fingerprintの設計と類似性指標の問題が考えられ、それぞれ適切に選択しなければならない。 以上の知見を踏まえ現在はあらかじめ候補断片群を生成する別法を開発中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
提案手法1については国内のCBI学会でポスター発表を行いフィードバックを得て、提案手法2の開発によりいくつかの改善が得られている。
|
Strategy for Future Research Activity |
提案手法2として、あらかじめ候補断片群を生成して検索する手法を考えている。まだ試験的な結果しか得られていないが提案手法1よりも良好な結果が得られつつある。その他に、これを利用した逆合成的解析手法も検討している。
|
Causes of Carryover |
ポスター発表後、論文発表をし、その後追加実験を行う予定であったが、論文執筆の途中で年度終わりが来てしまい予算執行に間に合わなかった。そこで来年度に使用したい。
|
Research Products
(2 results)