Developmental design for natural product biosynthetic clusters using machine learning

Publicly Offered Research

Project Area	Systems biosynthetics based on accumulation, prediction, and creation of biological reactions
Project/Area Number	23H04566
Research Category	Grant-in-Aid for Transformative Research Areas (A)
Allocation Type	Single-year Grants
Review Section	Transformative Research Areas, Section (II)
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	梅村舞子国立研究開発法人産業技術総合研究所, 生命工学領域, 研究グループ長 (00552259)
Project Period (FY)	2023-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥10,790,000 (Direct Cost: ¥8,300,000、Indirect Cost: ¥2,490,000) Fiscal Year 2024: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000) Fiscal Year 2023: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Keywords	機械学習 / 生合成遺伝子クラスター / 天然化合物 / 大規模言語モデル / 事前学習 / 遺伝子発現量 / 自然言語処理
Outline of Research at the Start	生物のゲノム配列には、進化の過程が年輪のように刻まれており、進化の結果形成された機能する遺伝子クラスター・オペロンの情報が保存されている。本提案では、ゲノム情報を自然言語処理技術によって学習させることで、最小限の最適な機能遺伝子クラスターを設計する技術を開発する。設計した遺伝子クラスターを、大腸菌・糸状菌に異種発現させて、結果を検証する。これにより、これまでウェット側の試行錯誤に頼ってきた、ターゲット化合物を生合成するのに必要な最小限・最適な機能遺伝子セットのデザインを可能にすることで、バイオによる迅速かつ効率的な天然有機化合物生産を加速し、新規化合物の生合成に寄与する。
Outline of Annual Research Achievements	本研究課題では、生物ゲノム情報上の機能モチーフ情報を文字列とみなして、大規模言語モデルにてゲノム上の特徴を学習し、化合物生合成遺伝子クラスターを予測・生成することを目的とする。初年度である2023年度は、放線菌ゲノム3335種を使用した事前学習と、二次代謝経路予測ツール兼データベースであるAntiSMASHに登録された16072の生合成遺伝子クラスター情報を用いた追学習を行った。言語モデルには、教師なしで事前学習が可能なBERT系アルゴリズムを用いた。まずHMMerで機能モチーフ検索を行い、その列をトークン化した。1文256トークンを最大として訓練集団を生成し、Epoch数を20、マスク確率0.15として事前学習を行った。結果、学習の度合いを示すLossの値が、7.5から1以下まで低下した。事前学習後のモデルに対して、さらに生合成クラスのラベルを付加した遺伝子クラスター情報を用いて追学習を行ったところ、Lossは2.6から1まで低下した。試験用に取っておいた4018クラスターの生合成クラスを予測させたところ、事前学習のみでは60%程度の正答率だったが、追学習後のモデルでは90%以上について正しいクラスを予測させることができた。以上より、本手法により生物ゲノム上の機能モチーフの並びに関する情報を事前学習させることができ、さらにクラスター情報の追学習により生合成クラスターの特徴を学習させることが可能であることが示された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 自然言語処理を用いた生合成遺伝子クラスターの予測・生成という新規テーマのコンセプトを証明し、予定通り生成モデルの作成に着手することができた。そのため、進捗はおおむね順調である。
Strategy for Future Research Activity	今後、遺伝子発現量を反映させたデータを用いた更なる追学習を行い、事前学習・追学習モデル１を用いたものと生合成遺伝子クラスターの予測・生成結果を比較して、学習の度合いを確認する。生合成クラスターの一部のみを残して残りを順次生成させることで、新規クラスターを生成させて、結果を機能モチーフの種類から判断する。かつ、生成したいくつかについて、大腸菌に遺伝子導入して化合物の生産性を確認するところまで行きたい。その他、事前学習に用いる生物種を拡充し、場合によってはすべての生物種を同時に学習させた事前学習モデルを生成し、結果を比較する。また、多くの生合成クラスターが発現していると予測される条件下での遺伝子発現量データを抽出するアルゴリズムを開発し、追学習２に使用する発現量データの量を増やす。これらにより、より信頼性の高い新規生合成遺伝子クラスターの予測・生成モデルを創出する。