研究課題/領域番号 |
22H03691
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
齋藤 裕 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (60721496)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2023年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2022年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
|
キーワード | タンパク質工学 / 指向性進化 / 生体分子設計 / 機械学習 |
研究開始時の研究の概要 |
本研究では、タンパク質の機能改良を効率化することを目的として、少数の教師データで変異効果予測を高精度に行うための「省データ」機械学習技術を開発する。画像処理や自然言語処理において提案されてきたゼロショット予測、データ拡張、弱教師あり学習などの手法を参考にしながら、さらに、タンパク質という生体分子ならではの特性である「進化」を考慮することで、独自性の高い省データ機械学習技術を創出する。本研究は、機械学習支援タンパク質工学において頻出する「教師データが少ない」という重要問題に挑むものであり、様々な機能性タンパク質の開発にブレイクスルーをもたらすと期待される。
|
研究実績の概要 |
本研究では、少数の教師データで変異効果予測を高精度に行うための「省データ」機械学習技術として、ゼロショット予測、データ拡張、弱教師あり学習の3つの手法を開発する。 今年度は、主にゼロショット予測について手法開発を行った。Transformerにもとづくタンパク質言語モデルをもちいたゼロショット予測手法に関して、ホモログ配列によるファインチューニングの効果を評価した。また、単一配列用のタンパク質言語モデルESMとアラインメント用のタンパク質言語モデルMSA Transformerのゼロショット予測を組み合わせて、配列最適化を行うパイプラインEvoOptを開発して、論文発表を行った。EvoOptは教師データを全く使用しないにも関わらず、既存の教師あり手法よりも効率よく配列最適化を行えることを示した。 データ拡張については、ホモログにおいて得られた教師データを改変対象タンパク質の教師データとして転用する技術を開発した。本技術を酵素IGPSおよび蛍光タンパク質GFPの公開データに適用して性能評価を行い、学会発表を行った。対象とするタンパク質の種類によって手法の有効性に差が見られており、現在、結果の解釈を行いながら手法の改良を行っている。 手法開発と並行して、実験系研究者との共同研究による手法の応用展開も進めている。今年度は酵素XylMの機能改変、抗体様標的結合タンパク質の設計に関して論文発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ゼロショット予測、データ拡張については、手法開発が順調に進展しており、論文発表、学会発表を行った。弱教師あり学習については、来年度より本格的に着手する予定である。
|
今後の研究の推進方策 |
ゼロショット予測、データ拡張の手法開発を継続して進めつつ、来年度は特に弱教師あり学習に注力する。また、実験系研究者との共同研究による手法の応用展開も継続して進める。
|