研究課題/領域番号 |
23K24946
|
補助金の研究課題番号 |
22H03691 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 北里大学 (2024) 国立研究開発法人産業技術総合研究所 (2022-2023) |
研究代表者 |
齋藤 裕 北里大学, 未来工学部, 教授 (60721496)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2025年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2024年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2022年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
|
キーワード | バイオインフォマティクス / 機械学習 / タンパク質工学 / 指向性進化 / 分子シミュレーション / 生体分子設計 |
研究開始時の研究の概要 |
本研究では、タンパク質の機能改良を効率化することを目的として、少数の教師データで変異効果予測を高精度に行うための「省データ」機械学習技術を開発する。画像処理や自然言語処理において提案されてきたゼロショット予測、データ拡張、弱教師あり学習などの手法を参考にしながら、さらに、タンパク質という生体分子ならではの特性である「進化」を考慮することで、独自性の高い省データ機械学習技術を創出する。本研究は、機械学習支援タンパク質工学において頻出する「教師データが少ない」という重要問題に挑むものであり、様々な機能性タンパク質の開発にブレイクスルーをもたらすと期待される。
|
研究実績の概要 |
本研究では、少数の教師データで変異効果予測を高精度に行うための「省データ」機械学習技術として、ゼロショット予測、データ拡張、弱教師あり学習の3つの手法を開発する。 今年度は、主に弱教師あり学習について手法開発を行った。分子シミュレーション手法であるRosettaやGROMACSによって計算される結合親和性や構造安定性などの機能計算値を機械学習の「弱い」教師データと考え、実験によって取得された教師データに追加することで、機械学習の予測精度の向上を試みた。公開されているリガンド結合タンパク質および酵素の活性データをベンチマークとして本手法の性能を評価した。その結果、本手法は実験データのみを用いる従来の機械学習に比べて高い予測精度を達成した。特に、利用できる実験データ量が100個以下と少数の場合には、弱教師データの追加によって顕著な精度向上が得られることがわかった。また、単変異体の弱教師データを利用することで、2重変異体の予測精度を向上できるなど、タンパク質工学への応用面でも重要な結果が得られた。以上の結果について学会発表を行った。 手法開発と並行して、実験系研究者との共同研究による手法の応用展開も進めている。今年度は酵素FMOの機能改変に関して論文発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ゼロショット予測、データ拡張、弱教師あり学習いずれについても予定通り進行している。ゼロショット予測については、昨年度に論文発表を行った。データ拡張、弱教師あり学習についても今年度に学会発表を行っており、来年度以降、論文化に向けて取りまとめる予定である。
|
今後の研究の推進方策 |
データ拡張、弱教師あり学習の手法開発を継続して進め、結果を取りまとめて論文化を目指す。また、実験系研究者との共同研究による手法の応用展開も継続して進める。
|