研究課題
本研究では、少数の教師データで変異効果予測を高精度に行うための「省データ」機械学習技術として、ゼロショット予測、データ拡張、弱教師あり学習の3つの手法を開発する。今年度は、主にゼロショット予測について手法開発を行った。Transformerにもとづくタンパク質言語モデルをもちいたゼロショット予測手法に関して、ホモログ配列によるファインチューニングの効果を評価した。また、単一配列用のタンパク質言語モデルESMとアラインメント用のタンパク質言語モデルMSA Transformerのゼロショット予測を組み合わせて、配列最適化を行うパイプラインEvoOptを開発して、論文発表を行った。EvoOptは教師データを全く使用しないにも関わらず、既存の教師あり手法よりも効率よく配列最適化を行えることを示した。データ拡張については、ホモログにおいて得られた教師データを改変対象タンパク質の教師データとして転用する技術を開発した。本技術を酵素IGPSおよび蛍光タンパク質GFPの公開データに適用して性能評価を行い、学会発表を行った。対象とするタンパク質の種類によって手法の有効性に差が見られており、現在、結果の解釈を行いながら手法の改良を行っている。手法開発と並行して、実験系研究者との共同研究による手法の応用展開も進めている。今年度は酵素XylMの機能改変、抗体様標的結合タンパク質の設計に関して論文発表を行った。
2: おおむね順調に進展している
ゼロショット予測、データ拡張については、手法開発が順調に進展しており、論文発表、学会発表を行った。弱教師あり学習については、来年度より本格的に着手する予定である。
ゼロショット予測、データ拡張の手法開発を継続して進めつつ、来年度は特に弱教師あり学習に注力する。また、実験系研究者との共同研究による手法の応用展開も継続して進める。
すべて 2023 2022
すべて 雑誌論文 (5件) (うち査読あり 5件) 学会発表 (19件) (うち国際学会 2件、 招待講演 1件)
ACS Synthetic Biology
巻: 12 ページ: 572~582
10.1021/acssynbio.2c00577
mAbs
巻: 15 ページ: -
10.1080/19420862.2023.2168470
Machine Learning in Structural Biology Workshop, The 36th Conference on Neural Information Processing Systems (NeurIPS 2022)
巻: - ページ: -
Chemical Communications
巻: 58 ページ: 6693~6696
10.1039/D2CC01759H
生物工学会誌
巻: 100 ページ: 589~592
10.34565/seibutsukogaku.100.11_589