2019 Fiscal Year Research-status Report
3次元畳み込みニューラルネットワークによる構造ベース化合物活性予測
Project/Area Number |
18K11524
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
石田 貴士 東京工業大学, 情報理工学院, 准教授 (40508355)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 薬剤活性予測 / エンドツーエンド表現学習 / タンパク質ポケット構造 / グラフニューラルネットワーク |
Outline of Annual Research Achievements |
昨年度、我々のグループは新規の標的タンパク質への化合物の活性の予測に対してタンパク質構造情報と低分子化合物の双方を機械学習モデルの入力とし、タンパク質ポケット構造情報をアミノ酸残基をノードとし、距離情報をエッジとしたグラフとして捉え、グラフ畳込みニューラルネットワークを適用したエンドツーエンド表現学習によって活性予測を行う手法を開発した。当該年度は、まず本手法に関する論文の執筆を行い、この論文は査読付き国際会議論文として受理された。さらにこの提案手法の改良に取り組み、まずタンパク質側の情報としてアミノ酸配列からの情報を加えることを試みたが、残念ながら予測精度の向上は得られず、原因についての検討を行った結果、使用していた既存の訓練データセットに問題があることが判明し、現在、公的な活性実験データベースであるChEMBLとタンパク質立体構造データベースであるPDBを用いて新たなデータセットの構築を開始している。また、本研究で得られたタンパク質構造情報を深層学習で利用する知見を応用し、タンパク質立体構造予測における予測構造モデルの評価問題で、タンパク質の立体構造をアミノ酸残基間距離に基づいてエッジをはることでグラフとして表現し、グラフ畳み込みニューラルネットワークを用いることで部分構造を評価する手法を開発した。この手法は既単一のタンパク質構造から精度を推定する既存の手法よりも高い精度を実現している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
これまで利用してきた既存の深層学習モデル訓練用データセットについて、類似した化合物が多く含まれているといった問題があることが判明したため、予測精度の向上のために自身での新規データセットの構築を開始しており、その結果当初の想定よりも多くの時間を要している。
|
Strategy for Future Research Activity |
まず、新規データセットの構築を完了し、その後入力特徴量やネットワーク構造の改良を行うことで予測精度の向上を図る。信頼性のある良質なデータセットの構築は本研究だけではなく、タンパク質構造情報を用いたか活性、毒性予測など関連する分野において重要な課題となっており、データセットの構築それ自身も価値のある研究と考えている。
|
Causes of Carryover |
投稿論文の出版費用を想定していたが、査読に時間がかかっているため。
|