2019 Fiscal Year Research-status Report
Development of Structural Design Program Using Organic Fragments for International Standardization
Project/Area Number |
19K05431
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
和泉 博 国立研究開発法人産業技術総合研究所, エネルギー・環境領域, 主任研究員 (20356455)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 立体配座 / ディープラーニング / タンパク質 / 超二次構造 / 分子構造コード化 / 機能性有機分子 / IUPAC命名法 / 創薬 |
Outline of Annual Research Achievements |
1)タンパク質超二次構造コードを用いた構造パターン解析 タンパク質超二次構造コード自動変換プログラムを用いて、139,932個のPDB結晶構造データを変換し、582,813個のFASTA形式サブユニットデータを有するタンパク質超二次構造コードデータベースを構築した。タンパク質超二次構造コードを0,1で記述される行列に変換し、Neural Network Console、KNIMEなどの機械学習用ワークフロー型データ分析プラットフォームへの取り込みを可能にした。既に正解データとなっているアミノ酸配列とタンパク質超二次構造コードとの相関があるかNeural Network Consoleを用いたディープラーニングを行った。独立の1万個のテストデータを3組を用いて検証した結果、100アミノ酸残基を用いて学習させることによりアミノ酸配列から平均90%のアミノ酸残基毎の一致率で立体配座予測可能であることがわかった。さらに、機能予測が可能であるかディープラーニングを行ったところ、タンパク質超二次構造コードのみからKINASE, TRANSFERASE, SYNTHASE, REDUCTASE, DEHYDROGENASE, HYDROGENASE, POLYMERASE, HYDROLASE, PROTEASE, PHOSPHATASE, ISOMERASE, OXIDASEの12種類の酵素の機能分類を98%の精度で行うことができた。 また、抗がん剤のターゲット分子PD-1にみられる出現頻度の少ない特徴的構造パターンをいろいろな主鎖長から選び出したところ、SSTSSHHHSTSSで表されるモチーフがPD-L1、CTLA-4に共通していた。さらに、このモチーフがT-Cell Receptor Beta Chain, GP120, CD89などにもみられることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
1.タンパク質超二次構造コードを用いた構造パターン解析について、計画通りにデータベースを構築できただけでなくその応用としてディープラーニングを用いて、アミノ酸配列から平均90%のアミノ酸残基毎の一致率で立体配座予測ができること及び12種類の酵素の機能分類が98%の精度で行えることを明らかにした。これまでのタンパク質二次構造予測の最高値の見積88%に匹敵する精度で予測でき、しかもこれまで困難であった個々のループ構造予測まで可能にしたことから、達成度として①と判断した。
|
Strategy for Future Research Activity |
3D-MCS記述子の国際規格策定に結びつけるために参加を予定していたphysical organic chemistryの国際学会が2022年に延期になったことから、1.タンパク質超二次構造コードを用いた構造パターン解析で得られたディープラーニング予測システムをさらに発展させ、タンパク質分子のflexibility及び立体配座変化を予測するためのシステム開発を優先して行う。同時に、世界規模で流行が広がっているCOVID-19への対策に役立てないか、構築したシステムをSARS-CoV-2に適用し立体配座変化予測を行う。
|
Causes of Carryover |
購入予定だった機械学習用ワークステーションで使用する、Neural Network Consoleアプリケーションが並列計算に対応していないことが判明したため、以前科研費で購入したワークステーションのGPUの更新で対応することに方針転換した。オープンアクセス論文発表やIUPAC規則の改正につながるように、延期された立体化学に関する国際学会研究成果発表への使用を予定している。
|