2022 Fiscal Year Research-status Report
機械学習とベイズ推論の融合による免疫受容体タンパク質の設計手法の開発
Project/Area Number |
22K18003
|
Research Institution | Aichi Cancer Center Research Institute |
Principal Investigator |
郭 中梁 愛知県がんセンター(研究所), システム解析学分野, 研究員 (20875819)
|
Project Period (FY) |
2022-04-01 – 2024-03-31
|
Keywords | TCR / タンパク質設計 / 機械学習 / サンプリング |
Outline of Annual Research Achievements |
本研究は,機械学習とベイズ推論を組み合わせて,高精度かつ効率的な免疫受容体タンパク質の設計手法を確立することを目指している.T細胞受容体(TCR)は,がん免疫においてがん細胞を認識する重要な役割を果たすが,患者に合わせた適切なTCRを見つけることが困難である.本研究では,タンパク質設計問題を統計のサンプリング問題と捉え,機械学習モデルを用いてTCR配列から結合能を予測し,TCR配列空間をサンプリングして高い結合能を持つTCR配列を発見する.
当該年度では,申請者はベイズ推論に基づくTCR配列のサンプリング手法を開発し,その性能を確認した.従来のサンプリング手法では,高い結合能を持つTCR配列を見つけられるものの,類似した配列が多く存在し,結合能の高いローカルモードにとらわれる問題があった.この問題に対処するため,クラスタリングを導入した逐次モンテカルロ法(SMC)を開発し,全体の探索と結合能の高い領域の優先的な探索のバランスを制御することに成功した.
ただし,この手法はpHLAとTCRの結合能予測モデルに依存し,小規模データや結合能データが存在しないpHLAには適用できない.申請者は,シミュレーションと機械学習の両方から解決策を模索していた.シミュレーションモデルは予測精度が低く,時間もかかるため,本研究には適さないことが判明した.機械学習モデルは高い精度を実現できるが,タンパク質の立体構造情報が必要であり,配列からの高精度予測方法は未確立である.現在,申請者はマルチモーダル学習とタンパク質立体構造予測モデルを活用し,配列から高精度な結合能予測モデルの開発を進めている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の方法論として,下記2点の技術要素を組み合わせ,効率的なTCR設計手法の実現を目指している. A. TCR配列の結合能を評価する機械学習モデル B. 離散空間上で多様かつ有望なTCR配列を効率的にサンプリングするアルゴリズム 現在,サンプリングアルゴリズムの開発が完了し,その性能を確認した.また結合能予測モデルについて,先行研究を再現し,小規模データに対応できない問題点を明らかにしている.そのため,タンパク質間相互作用のモデルを利用することで,従来各pHLAに対して構築される予測モデルを一般的なタンパク質間結合能予測モデルで代用することで,上記の問題の解決に取り組んでいる.タンパク質間相互作用の研究では,特に立体構造から結合能を予測するモデルが高い精度が示しているが,配列からの高精度な予測はまだ実現できていない.申請者はマルチモーダル学習とタンパク質立体構造予測モデルを利用して新たな手法の提案に向けて,モデルを構築し,予備テストでは一定の成果を得られているため,問題解決に着実に進めている.
|
Strategy for Future Research Activity |
現在,TCR結合能データが不足している状況において,有効な結合能予測モデルの構築に向けて研究を進めている.特にシミュレーションと機械学習両方からトライアンドエラーを繰り返し,有効な手法を模索したが,シミュレーションベースの手法は予測精度および予測速度の問題で,TCR設計に向かないことが分かった.今後の研究では機械学習手法にフォーカスし,配列からタンパク質間相互作用の予測モデルの構築を進めていく予定である.結合能の予測問題では,タンパク質の構造またアミノ酸配列から結合能を予測するモデルが存在し,前者の方が精度がよい.しかしながら,TCR設計では配列から直接に結合能を予測したほうが,アルゴリズムの簡潔化およびパフォーマンス向上につながるので,現在,配列から結合能を予測するモデルの開発を最優先課題として進めている.予備テストでは,タンパク質立体構造予測モデルにマルチモーダル学習を組み合わせることで,タンパク質のアミノ酸配列から結合能を予測できることを確認した.TCRの結合能予測モデルの構築が完了したら,当該年度で開発したサンプリングアルゴリズムと組み合わせ,pHLAに結合するTCRを設計し,その結合能を実験的に検証して行く予定である.
|
Causes of Carryover |
当該年度で購入する予定の計算用ワークステーションは発売時期及び納品時期の関係で翌年度で購入,納品する予定である.翌年度分として請求した助成金と合わせ,(a) 計算用ワークステーション:1,600,000; (b) 学会参加:400,000; (c) 論文投稿:400,000; (d) スパコン使用料:1,000,000 を使用する予定である.
|