研究課題/領域番号 |
23K24942
|
補助金の研究課題番号 |
22H03687 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 大阪大学 |
研究代表者 |
水口 賢司 大阪大学, 蛋白質研究所, 教授 (50450896)
|
研究分担者 |
織田 昌幸 京都府立大学, 生命環境科学研究科, 教授 (20318231)
李 秀栄 国立研究開発法人医薬基盤・健康・栄養研究所, 医薬基盤研究所 AI健康・医薬研究センター, 主任研究員 (50390670)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,550千円 (直接経費: 13,500千円、間接経費: 4,050千円)
2024年度: 5,720千円 (直接経費: 4,400千円、間接経費: 1,320千円)
2023年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2022年度: 8,320千円 (直接経費: 6,400千円、間接経費: 1,920千円)
|
キーワード | 構造インフォマティクス / タンパク質構造ダイナミクス |
研究開始時の研究の概要 |
人工知能(AI)の応用によるタンパク質立体構造の予測の成功が大きな注目を集めている一方、タンパク質がどのように機能を発揮するかの解明やその機能をどのように改変し得るかという応用に向けては、タンパク質の静的構造だけでなく動的構造についての理解を得ることが必須となる。本研究では、AI・機械学習の手法を応用して静的構造に内在する動的構造についての情報を抽出する方法を構築し、静的―動的構造の関係性についての新たな知見を得ることを目的とする。結果は、分子動力学シミュレーションと実験により検証し、動的構造と関連づけられる静的構造の表現を用いることで、高精度の相互作用や機能予測を実現する基盤を構築する。
|
研究実績の概要 |
タンパク質立体構造の局所環境をより一般的に特徴付けるため、2次構造(4変数)、水素結合パターン(3変数)、ジスルフィド結合、イオン結合、溶媒接触面積(各1変数)の合計10変数からなるプロフィールを定義し、タンパク質立体構造データベースProtein Data Bank(PDB)中の代表ポリペプチド鎖9573について、局所環境プロフィールを計算した。次に、自然言語処理で幅広く用いられているTransformerを用いて、マスク言語モデルを構築した。実装には、Python言語のPyTorchフレームワークを用いた。局所環境プロフィールをアミノ酸配列に沿って並べたものを入力にし、残基位置の15%をランダムにマスクして、そのプロフィール値を再現するようにモデルを訓練した。学習されたモデルの性能を評価したところ、2次構造については90%程度の高い精度が確認された。これは、2次構造は幾つかの連続するアミノ酸残基によって形成されるため、周辺の局所環境の情報からプロフィールを予測することが容易であるためと考えられる。逆に、水素結合などポリペプチド鎖上は離れた場所との相互作用を必要とする特徴については予測精度が低くなり、またジスルフィド結合など出現頻度の低い局所環境については、予測が極めて困難であることがわかった。一方で、構造ダイナミクスの情報を直接評価するために、上記代表ポリペプチド鎖について分子動力学計算を行った。この結果はProtein Data Bank Japan 中のThe Dynamics DataBank (DDB) (https://bsma.pdbj.org/dynamicsdb/)への登録を予定している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
年度計画通りに、タンパク質立体構造の局所情報のマスク言語モデルの構築と、分子動力学シミュレーションを用いた動的構造を表現するトラジェクトリの生成を完了したため。
|
今後の研究の推進方策 |
構築した局所情報のマスク言語モデルの精度を向上させるために、入力の特徴としてアミノ酸の種類を追加する。これにより、出現頻度の低い局所環境の予測が困難という問題が克服できると期待される。また、S4やMEGAなどTransformer以外のモデルを導入して性能を評価する。さらに、今年度計算した局所環境プロフィールではなく、当初のJOYソフトウェアの定義により近い形である、離散的なクラスとして局所環境を定義する。これらの方策の組み合わせの検討と共に、モデルのハイパーパラメータをチューニングして、最適な局所情報のマスク言語モデルを完成する。そのモデルを用いて、1) 予測された局所環境の分布と、PDB中の実際のタンパク質内で観察された局所環境との違いとの網羅的な比較とダイナミクスの観点からの解釈付け、2) 分子動力学シミュレーションから得られた残基揺らぎを教師データとしたファインチューニング、さらに3) phosphoinositide 3-kinaseのSrc-homology 2(SH2)ドメインについて、分子動力学シミュレーションと実験を組み合わせた解析へと進む。
|