2020 Fiscal Year Annual Research Report
Learning on Structure-Activity Relationship from Heterogenous Chemical Compound Databases
Project/Area Number |
17K00320
|
Research Institution | Kwansei Gakuin University |
Principal Investigator |
猪口 明博 関西学院大学, 理工学部, 教授 (70452456)
|
Co-Investigator(Kenkyū-buntansha) |
田中 大輔 関西学院大学, 理工学部, 准教授 (60589399)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 機械学習 / グラフ分類 / クラスタリング |
Outline of Annual Research Achievements |
本年度は,以下の研究を行った. 1つ目は,グラフの頂点がm次元特徴ベクトルをもち,頂点をクラスタリングする問題に取り組んだ.従来研究の多くでは,特徴ベクトルの各特徴の重要度に差を付けずに頂点間の類似度を計算しクラスタリングする.しかし,m個の特徴の中には,頂点の特徴づけに不必要なものもあり,これによって正しい類似度を計算できず,結果的にクラスタリング精度が低下する.そこで,生成されるクラスタの大きさは互いに同程度で,生成されるクラスタ内の頂点間が互いに類似度が高く,それ以外は低くなるように,上記の重要度(重み)をデータから学習するアルゴリズムを提案し,評価実験を行った. 2つ目は,グラフの特徴抽出に関連する技術の研究である.化合物は,その原子や結合をグラフの頂点や辺に対応させると,グラフで表現することができる.化合物の部分構造は,グラフの部分グラフに対応し,部分グラフをグラフの特徴として抽出し,機械学習法を適用する手法が様々ある.グラフの部分グラフの種類は非常に膨大であり,部分グラフ同型問題がNP完全であることから,特徴として用いられる部分グラフはある頂点からhステップ以内で可達な頂点集合によって誘導される部分グラフに限られることが多い.しかし,これによって,特徴が制限され,機械学習法による予測精度の改善に限界がある可能性があった.これを克服するために,前述の頂点集合を確率的に選択し,特徴となる部分グラフの候補の種類を増やす方法を提案した.提案した手法の計算複雑度は,入力となるグラフの頂点数に対して,比例する程度なので,理論的には効率の高い手法であるといえる.この分野でベンチマークとして知られるデータセットで評価実験したところ,基となったアルゴリズムに比べ,精度向上できることを確認できた.
|
Research Products
(2 results)