研究課題/領域番号 |
23K18120
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分43:分子レベルから細胞レベルの生物学およびその関連分野
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
梅村 舞子 国立研究開発法人産業技術総合研究所, 生命工学領域, 研究グループ長 (00552259)
|
研究期間 (年度) |
2023-06-30 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2024年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2023年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
|
キーワード | 大規模言語モデル / 機能モチーフ / 機械学習 / 生合成遺伝子クラスター / 遺伝子発現量 / 遺伝子クラスター / 自然言語処理技術 / 天然化合物 |
研究開始時の研究の概要 |
本研究では、遺伝子機能の並びを機械学習の一種である自然言語処理技術によって学習させることで、最小限の最適な機能遺伝子クラスターを設計する技術を開発する。生成した学習モデルを用いて予測・生成した遺伝子クラスターの結果は、大腸菌や糸状菌への異種発現により化合物生産性の観点から検証する。これにより、これまでウェット側の試行錯誤に頼ってきた、化合物の生合成に必要な最小限・最適な機能遺伝子セットのデザインを可能にすることで、バイオによる効率的な化合物生産を加速し新規化合物の生合成に寄与する。
|
研究実績の概要 |
本研究課題では、生物ゲノム情報上の機能モチーフ情報を文字列とみなして、大規模言語モデルにてゲノム上の特徴を学習し、化合物生合成遺伝子クラスターを予測・生成することを目的とする。初年度である2023年度は、放線菌ゲノムおよび糸状菌ゲノムを使用した事前学習と、二次代謝経路予測ツール兼データベースであるAntiSMASHに登録された生合成遺伝子クラスター情報を用いた追学習を行った。言語モデルには、教師なしで事前学習が可能なBERT系アルゴリズムを用いた。 まずHMMerで機能モチーフ検索を行い、その列をトークン化した。1文256トークンを最大として訓練集団を生成し、Epoch数を20、マスク確率0.15として事前学習を行った。結果、学習の度合いを示すLossの値が、8程度から1前後まで低下した。事前学習後のモデルに対して、さらに生合成クラスのラベルを付加した遺伝子クラスター情報を用いて追学習を行ったところ、Lossは3程度から1程度まで低下した。試験用に取っておいた全体の1/3のクラスターの生合成クラスを予測させたところ、事前学習のみでは60%程度の正答率だったが、追学習後のモデルでは90%以上について正しいクラスを予測させることができた。 以上より、本手法により生物ゲノム上の機能モチーフの並びに関する情報を事前学習させることができ、さらにクラスター情報の追学習により生合成クラスターの特徴を学習させることが可能であることが示された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
機能モチーフのトークン化、事前学習、および既知生合成クラスター情報を用いた追学習1の計算系を構築し、新規テーマのコンセプトが正しいことを示した。よって、おおむね順調な進展である。
|
今後の研究の推進方策 |
遺伝子発現量を反映させたデータによる追学習2を行い、事前学習・追学習モデル1を用いたものと予測結果を比較して学習の度合いを確認する。生合成クラスターの一部のみを残して周辺機能モチーフを順次生成させることで、新規クラスターを生成させる。結果の確からしさを機能モチーフの種類からドライ解析に判断するとともに、生成したいくつかについて、大腸菌に遺伝子導入して化合物の生産性を確認する。 その他、事前学習に用いる生物種を拡充し、場合によってはすべての生物種を同時に学習させた事前学習モデルを生成して結果を比較する。また、多くの生合成遺伝子クラスターが発現していると予測される条件下での遺伝子発現量データを抽出するアルゴリズムを開発し、追学習2に使用する発現量データの量を増やす。 これらにより、コンセプトの正しさを示せた2023年度の結果を元に、より信頼性の高い新規生合成遺伝子クラスターの予測・生成モデルを創出する。
|