2022 Fiscal Year Annual Research Report
タンパク質の機能改良のための「省データ」機械学習技術の開発
Project/Area Number |
22H03691
|
Allocation Type | Single-year Grants |
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
齋藤 裕 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (60721496)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | タンパク質工学 / 指向性進化 / 機械学習 |
Outline of Annual Research Achievements |
本研究では、少数の教師データで変異効果予測を高精度に行うための「省データ」機械学習技術として、ゼロショット予測、データ拡張、弱教師あり学習の3つの手法を開発する。 今年度は、主にゼロショット予測について手法開発を行った。Transformerにもとづくタンパク質言語モデルをもちいたゼロショット予測手法に関して、ホモログ配列によるファインチューニングの効果を評価した。また、単一配列用のタンパク質言語モデルESMとアラインメント用のタンパク質言語モデルMSA Transformerのゼロショット予測を組み合わせて、配列最適化を行うパイプラインEvoOptを開発して、論文発表を行った。EvoOptは教師データを全く使用しないにも関わらず、既存の教師あり手法よりも効率よく配列最適化を行えることを示した。 データ拡張については、ホモログにおいて得られた教師データを改変対象タンパク質の教師データとして転用する技術を開発した。本技術を酵素IGPSおよび蛍光タンパク質GFPの公開データに適用して性能評価を行い、学会発表を行った。対象とするタンパク質の種類によって手法の有効性に差が見られており、現在、結果の解釈を行いながら手法の改良を行っている。 手法開発と並行して、実験系研究者との共同研究による手法の応用展開も進めている。今年度は酵素XylMの機能改変、抗体様標的結合タンパク質の設計に関して論文発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ゼロショット予測、データ拡張については、手法開発が順調に進展しており、論文発表、学会発表を行った。弱教師あり学習については、来年度より本格的に着手する予定である。
|
Strategy for Future Research Activity |
ゼロショット予測、データ拡張の手法開発を継続して進めつつ、来年度は特に弱教師あり学習に注力する。また、実験系研究者との共同研究による手法の応用展開も継続して進める。
|