2018 Fiscal Year Research-status Report
質の異なる化合物データベースからの薬理活性予測モデルの学習
Project/Area Number |
17K00320
|
Research Institution | Kwansei Gakuin University |
Principal Investigator |
猪口 明博 関西学院大学, 理工学部, 准教授 (70452456)
|
Co-Investigator(Kenkyū-buntansha) |
田中 大輔 関西学院大学, 理工学部, 准教授 (60589399)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 機械学習 / データマイニング / 深層学習 / 構造活性相関 / ケモインフォマティクス |
Outline of Annual Research Achievements |
化合物は原子,化学結合,原子の種類,結合の種類をグラフの頂点,辺,頂点ラベル,辺ラベルとするグラフで表現することができる.各化合物は,例えば,変異原性などの特性を有するが,本研究の目的は,変異原性が既知の化合物から,化合物の構造的特徴と変異原性の関係を計算機に学習させ,変異原性が未知の化合物の変異原性を予測することである. 機械学習分野でベンチマークデータとして使われている変異原性データは,僅か188個の化合物構造の情報しか含んでおらず,大量のデータを必要とする深層学習法にこのデータを適用すると過学習を引き起こす恐れがある.このため,本研究では別の化合物データを用いて事前学習を行うことで過学習を回避した.具体的には,計算機の中で人工的に作成された化合物データ(5000万化合物からなる)を利用し,このデータをニューラルネットワークの事前学習に用いた.事前学習したニューラルネットワークに対して,上記の188個の変異原性データの一部を用いて,変異原性予測のための学習を行った. 実験の結果,事前学習をしなかった場合の予測精度は83.53%であったのに対して,事前学習を行った場合の予測精度は86.01%と,予測精度の向上がみられた.このことから,学習に用いることができる化合物データが少量の場合でも,他のデータを用いて事前学習を行うことの効果を確認することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「研究実績の概要」に記載の通りの成果を達成した. また,本研究の成果を基にした技術発明を特許として申請した.
|
Strategy for Future Research Activity |
「研究実績の概要」に記載の通り人工化合物データでニューラルネットワークの事前学習を行うことにより,予測精度の向上を達成できた.しかし,この変異原性データに対して,他の機械学習法を適用すると,より高い精度で予測できることが,他の論文等で報告されている.この差の理由は以下のように考えられる. ・人工化合物データの平均原子数が26であるのに対して,人工化合物データの原子数は高々17である.事前学習に用いたデータの性質と変異原性データの性質の違いが,この予測精度の違いを与えている可能性がある. ・化合物データをニューラルネットワークに適用するためには,化合物データから特徴を得て,ベクトル化する必要がある.本研究では,化合物をグラフで表現するが,そこから得られる特徴はある頂点からhステップ(hは0以上の整数)で到達可能な頂点により誘導される部分グラフに限られている.しかし,化合物の変異原活性に関わる部分構造は,この誘導部分グラフにより表現できるとは限らず,任意の部分グラフ(誘導部分グラフでない部分グラフ)を用いたほうが適切な可能性がある. 以上の考察を踏まえ,2019年度は人工化合物データによる事前学習の精度を向上させるための方法論について,研究を行う予定である.
|
Causes of Carryover |
既設の計算機資源を用いて研究・開発を行ったため予定していた計算機の購入を控えた.研究の進捗は順調であり,31年度に成果報告等のために国内外の旅費として,30年度の繰越金を31年度に執行予定である.
|
Research Products
(5 results)