研究実績の概要 |
1)タンパク質超二次構造コードを用いた構造パターン解析 タンパク質超二次構造コード自動変換プログラムを用いて、139,932個のPDB結晶構造データを変換し、582,813個のFASTA形式サブユニットデータを有するタンパク質超二次構造コードデータベースを構築した。タンパク質超二次構造コードを0,1で記述される行列に変換し、Neural Network Console、KNIMEなどの機械学習用ワークフロー型データ分析プラットフォームへの取り込みを可能にした。既に正解データとなっているアミノ酸配列とタンパク質超二次構造コードとの相関があるかNeural Network Consoleを用いたディープラーニングを行った。独立の1万個のテストデータを3組を用いて検証した結果、100アミノ酸残基を用いて学習させることによりアミノ酸配列から平均90%のアミノ酸残基毎の一致率で立体配座予測可能であることがわかった。さらに、機能予測が可能であるかディープラーニングを行ったところ、タンパク質超二次構造コードのみからKINASE, TRANSFERASE, SYNTHASE, REDUCTASE, DEHYDROGENASE, HYDROGENASE, POLYMERASE, HYDROLASE, PROTEASE, PHOSPHATASE, ISOMERASE, OXIDASEの12種類の酵素の機能分類を98%の精度で行うことができた。 また、抗がん剤のターゲット分子PD-1にみられる出現頻度の少ない特徴的構造パターンをいろいろな主鎖長から選び出したところ、SSTSSHHHSTSSで表されるモチーフがPD-L1、CTLA-4に共通していた。さらに、このモチーフがT-Cell Receptor Beta Chain, GP120, CD89などにもみられることがわかった。
|