進化過程を模倣した機能遺伝子クラスターの設計

Research Project

Project/Area Number	23K18120
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 43:Biology at molecular to cellular levels, and related fields
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	梅村舞子国立研究開発法人産業技術総合研究所, 生命工学領域, 研究グループ長 (00552259)
Project Period (FY)	2023-06-30 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000) Fiscal Year 2024: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000) Fiscal Year 2023: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Keywords	大規模言語モデル / 機能モチーフ / 機械学習 / 生合成遺伝子クラスター / 遺伝子発現量 / 遺伝子クラスター / 自然言語処理技術 / 天然化合物
Outline of Research at the Start	本研究では、遺伝子機能の並びを機械学習の一種である自然言語処理技術によって学習させることで、最小限の最適な機能遺伝子クラスターを設計する技術を開発する。生成した学習モデルを用いて予測・生成した遺伝子クラスターの結果は、大腸菌や糸状菌への異種発現により化合物生産性の観点から検証する。これにより、これまでウェット側の試行錯誤に頼ってきた、化合物の生合成に必要な最小限・最適な機能遺伝子セットのデザインを可能にすることで、バイオによる効率的な化合物生産を加速し新規化合物の生合成に寄与する。
Outline of Annual Research Achievements	本研究課題では、生物ゲノム情報上の機能モチーフ情報を文字列とみなして、大規模言語モデルにてゲノム上の特徴を学習し、化合物生合成遺伝子クラスターを予測・生成することを目的とする。初年度である2023年度は、放線菌ゲノムおよび糸状菌ゲノムを使用した事前学習と、二次代謝経路予測ツール兼データベースであるAntiSMASHに登録された生合成遺伝子クラスター情報を用いた追学習を行った。言語モデルには、教師なしで事前学習が可能なBERT系アルゴリズムを用いた。まずHMMerで機能モチーフ検索を行い、その列をトークン化した。1文256トークンを最大として訓練集団を生成し、Epoch数を20、マスク確率0.15として事前学習を行った。結果、学習の度合いを示すLossの値が、8程度から1前後まで低下した。事前学習後のモデルに対して、さらに生合成クラスのラベルを付加した遺伝子クラスター情報を用いて追学習を行ったところ、Lossは3程度から1程度まで低下した。試験用に取っておいた全体の1/3のクラスターの生合成クラスを予測させたところ、事前学習のみでは60%程度の正答率だったが、追学習後のモデルでは90%以上について正しいクラスを予測させることができた。以上より、本手法により生物ゲノム上の機能モチーフの並びに関する情報を事前学習させることができ、さらにクラスター情報の追学習により生合成クラスターの特徴を学習させることが可能であることが示された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 機能モチーフのトークン化、事前学習、および既知生合成クラスター情報を用いた追学習１の計算系を構築し、新規テーマのコンセプトが正しいことを示した。よって、おおむね順調な進展である。
Strategy for Future Research Activity	遺伝子発現量を反映させたデータによる追学習２を行い、事前学習・追学習モデル１を用いたものと予測結果を比較して学習の度合いを確認する。生合成クラスターの一部のみを残して周辺機能モチーフを順次生成させることで、新規クラスターを生成させる。結果の確からしさを機能モチーフの種類からドライ解析に判断するとともに、生成したいくつかについて、大腸菌に遺伝子導入して化合物の生産性を確認する。その他、事前学習に用いる生物種を拡充し、場合によってはすべての生物種を同時に学習させた事前学習モデルを生成して結果を比較する。また、多くの生合成遺伝子クラスターが発現していると予測される条件下での遺伝子発現量データを抽出するアルゴリズムを開発し、追学習２に使用する発現量データの量を増やす。これらにより、コンセプトの正しさを示せた2023年度の結果を元に、より信頼性の高い新規生合成遺伝子クラスターの予測・生成モデルを創出する。