2022 Fiscal Year Annual Research Report
Extracting information about protein dynamics by learning the local environments of static structures
Project/Area Number |
22H03687
|
Allocation Type | Single-year Grants |
Research Institution | Osaka University |
Principal Investigator |
水口 賢司 大阪大学, 蛋白質研究所, 教授 (50450896)
|
Co-Investigator(Kenkyū-buntansha) |
織田 昌幸 京都府立大学, 生命環境科学研究科, 教授 (20318231)
李 秀栄 国立研究開発法人医薬基盤・健康・栄養研究所, 医薬基盤研究所 AI健康・医薬研究センター, 主任研究員 (50390670)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | タンパク質構造ダイナミクス |
Outline of Annual Research Achievements |
タンパク質の静的構造情報の中に動的構造情報がどの程度含まれているのかという問いに答えるために、タンパク質立体構造の局所情報の表現を事前学習によって構築する作業に着手した。実際に学習を行う準備としてまず、タンパク質の原子座標データを入力として各アミノ酸残基がどの局所環境クラスに属するかを計算して出力するJOYソフトウェアを整備、改変した。既存プログラムをより使いやすくするためにユーザーインターフェイスを見直し、新規のウェブアプリケーションとして公開した(https://mizuguchilab.org/joy/)。また、従来の、2次構造、溶媒接触面積、側鎖がタンパク質内の他の部位と水素結合を作っているかどうかだけに着目した離散的な局所環境の定義だけでなく、より一般的な特徴を計算するためには、Pythonライブラリを用いた新規の実装が効率的と判断した。そのため、立体構造の座標データから必要な構造パラメータを効率よく計算できるプログラムを開発した。さらに、タンパク質立体構造データベースProtein Data Bank(PDB)に格納された立体構造データから学習に利用する構造を用意した。PDB中には、同配列あるいはほぼ同一の実験条件で決定された構造が多数存在するため、重複のないポリペプチド鎖9573を抽出して、以後の解析に利用することにした。一方で、具体的な対象として設定したphosphoinositide 3-kinaseのSrc-homology 2(SH2)ドメインについて、分子動力学シミュレーションと実験を組み合わせた解析を先行的に実施し、構造ダイナミクスと基質認識についての新知見を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題の最初のマイルストーンである、タンパク質立体構造の局所情報の事前学習モデル構築に向けた準備が全て整い、次年度の実装に向けた予備調査が終了したから。
|
Strategy for Future Research Activity |
標準的な深層学習ライブラリを用いて、タンパク質立体構造の局所情報のマスク言語モデル(Masked Language Model, MLM)を構築する。学習がうまく進まない場合は、ハイパーパラメータをチューニングし、また特徴の定義を変更することで、満足行くモデルの性能が得られるかどうかを評価する。その上で、予測された局所環境の分布と、PDB中の実際のタンパク質内で観察された局所環境との違いの網羅的な比較や、分子動力学シミュレーションから得られた残基揺らぎを教師データとしたファインチューニングへと進む。
|