2022 Fiscal Year Annual Research Report
Development and Applications of Nonlinear Dimension Reduction with Weak Supervisiors
Project/Area Number |
17K08235
|
Research Institution | Osaka University |
Principal Investigator |
高木 達也 大阪大学, 大学院薬学研究科, 特任教授 (80144517)
|
Project Period (FY) |
2017-04-01 – 2023-03-31
|
Keywords | フラグメント分子軌道法 / シフト検定法 / 化学記述子 / IFIE / 生理活性空間 / 化学記述子空間 / 多様体学習 |
Outline of Annual Research Achievements |
高次元のデータから有用な知見を得るデータマイニングは薬学分野でも注目が高まっている。データマイニングに用いられる手法の1つである次元圧縮はデータの特徴抽出や機械学習における教師なし学習、ビッグデータ、ミドルデータの可視化など様々な分野で用いられる。 しかし多くはデータが低次元の線形空間に埋め込み得ると仮定しているため、実際には線形空間ではない低次元にしか埋め込めないデータが正しく抽出できない場合がある。近年注目されている多様体学習は、従来の線形圧縮では正しく抽出できなかったデータの次元圧縮が行えるという利点があり、Isomapを用いたbiomedical spaceの可視化等、多様体学習を用いた新たな解析手法が薬学分野にも用いられるようになった。 タンパク質-リガンド間相互作用を取り入れた機械学習や統計学を用いたQSAR(定量的構造活性相関解析)モデルは少数であり、特に多様体学習を用いた報告は未だ殆ど行われていない。そこで、本課題では、タンパク質リガンド間相互作用の計算結果を包括する多様体学習を用いた新規手法の開発を目的とした。 結果として得られた線形重回帰では、不要な変数を削除でき、pIC50にとって重要な変数が得られたと考えられる。また、選択されたIFIEおよび化学記述子のみのデータでも多様体学習を行い、得られたリガンドの二次元マップではpIC50の予測が凡そ可能であった。しかし、データを組み合わせることでより分離性能の高いマップが得られている。以上より、本提案手法はpIC50に寄与している説明変数を選定することが可能であり、また得られた二次元マップ未知のリガンドのpIC50の推測を可能にすることが明らかとなった。
|