2023 Fiscal Year Annual Research Report
Extracting information about protein dynamics by learning the local environments of static structures
Project/Area Number |
22H03687
|
Allocation Type | Single-year Grants |
Research Institution | Osaka University |
Principal Investigator |
水口 賢司 大阪大学, 蛋白質研究所, 教授 (50450896)
|
Co-Investigator(Kenkyū-buntansha) |
織田 昌幸 京都府立大学, 生命環境科学研究科, 教授 (20318231)
李 秀栄 国立研究開発法人医薬基盤・健康・栄養研究所, 医薬基盤研究所 AI健康・医薬研究センター, 主任研究員 (50390670)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | タンパク質構造ダイナミクス |
Outline of Annual Research Achievements |
タンパク質立体構造の局所環境をより一般的に特徴付けるため、2次構造(4変数)、水素結合パターン(3変数)、ジスルフィド結合、イオン結合、溶媒接触面積(各1変数)の合計10変数からなるプロフィールを定義し、タンパク質立体構造データベースProtein Data Bank(PDB)中の代表ポリペプチド鎖9573について、局所環境プロフィールを計算した。次に、自然言語処理で幅広く用いられているTransformerを用いて、マスク言語モデルを構築した。実装には、Python言語のPyTorchフレームワークを用いた。局所環境プロフィールをアミノ酸配列に沿って並べたものを入力にし、残基位置の15%をランダムにマスクして、そのプロフィール値を再現するようにモデルを訓練した。学習されたモデルの性能を評価したところ、2次構造については90%程度の高い精度が確認された。これは、2次構造は幾つかの連続するアミノ酸残基によって形成されるため、周辺の局所環境の情報からプロフィールを予測することが容易であるためと考えられる。逆に、水素結合などポリペプチド鎖上は離れた場所との相互作用を必要とする特徴については予測精度が低くなり、またジスルフィド結合など出現頻度の低い局所環境については、予測が極めて困難であることがわかった。一方で、構造ダイナミクスの情報を直接評価するために、上記代表ポリペプチド鎖について分子動力学計算を行った。この結果はProtein Data Bank Japan 中のThe Dynamics DataBank (DDB) (https://bsma.pdbj.org/dynamicsdb/)への登録を予定している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
年度計画通りに、タンパク質立体構造の局所情報のマスク言語モデルの構築と、分子動力学シミュレーションを用いた動的構造を表現するトラジェクトリの生成を完了したため。
|
Strategy for Future Research Activity |
構築した局所情報のマスク言語モデルの精度を向上させるために、入力の特徴としてアミノ酸の種類を追加する。これにより、出現頻度の低い局所環境の予測が困難という問題が克服できると期待される。また、S4やMEGAなどTransformer以外のモデルを導入して性能を評価する。さらに、今年度計算した局所環境プロフィールではなく、当初のJOYソフトウェアの定義により近い形である、離散的なクラスとして局所環境を定義する。これらの方策の組み合わせの検討と共に、モデルのハイパーパラメータをチューニングして、最適な局所情報のマスク言語モデルを完成する。そのモデルを用いて、1) 予測された局所環境の分布と、PDB中の実際のタンパク質内で観察された局所環境との違いとの網羅的な比較とダイナミクスの観点からの解釈付け、2) 分子動力学シミュレーションから得られた残基揺らぎを教師データとしたファインチューニング、さらに3) phosphoinositide 3-kinaseのSrc-homology 2(SH2)ドメインについて、分子動力学シミュレーションと実験を組み合わせた解析へと進む。
|