2019 Fiscal Year Research-status Report
質の異なる化合物データベースからの薬理活性予測モデルの学習
Project/Area Number |
17K00320
|
Research Institution | Kwansei Gakuin University |
Principal Investigator |
猪口 明博 関西学院大学, 理工学部, 教授 (70452456)
|
Co-Investigator(Kenkyū-buntansha) |
田中 大輔 関西学院大学, 理工学部, 准教授 (60589399)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 機械学習 |
Outline of Annual Research Achievements |
本研究では,薬理活性/副作用/毒性など(以下,目的変数)が既知である化合物データベース(DB)を入力とし,機械学習法を用いて,化合物の構造と目的変数の関係を学習することを目的とした.これにより,目的変数が未知である化合物の目的変数の値を予測することができる.しかし,利用できる目的変数をもつ化合物DBは非常に小さいため,これから学習しようとすると過学習を起こす可能性がある.そこで,本研究では,人工的化合物やCASレジストリに登録された化合物なども活用して,予測精度の高い学習器の構築を目標とした.化合物を計算機で扱うために,化合物をグラフで表現する.ここで,化合物の原子,化学結合,原子の種類,結合の種類は,それぞれグラフの頂点,辺,頂点ラベル,辺ラベルに対応する.主な研究成果は以下の通りである. (1) 数億化合物を効率的に扱うために,グラフ専用DBが必要となる.グラフ集合{g1,g2,...,gn}とクエリグラフqが入力として与えられたときに,qに部分グラフとして含まれるグラフをDBから高速に検索する手法を実現した.この手法は,並列計算可能であり,またqの部分グラフに類似するグラフを検索することが可能であることを実証した. (2) 機械学習法でグラフ(化合物)を扱うために,特徴量抽出の方法を提案した.それまでの手法では,その特徴量はグラフのある頂点からhステップ以内で到達可能な頂点からなる誘導部分グラフに限られていたが,本手法では,それらの頂点から構成される任意の部分グラフに緩和することができた.変異原活性が既知のベンチマークデータで評価したところ,誤分類率が1/3程度減少することが分かった. (3) (2)の元アイデアとなっている手法で特徴抽出し,深層学習法で学習したところ,人工化合物データを用いるほうが誤分類率が下がる可能性があることが分かった.現在,その詳細を調査中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題を開始して3年が経過した.この研究期間の成果を活用し,「今後の研究の推進方策」で述べるように,2020年度は研究成果の取りまとめとして,2019年度に中止となった研究会・学会等での成果発表を予定している.このため,おおむね順調に進展しているといえる.
|
Strategy for Future Research Activity |
2020年度は,本研究課題の最終年度(延長年度)であるため,研究成果の取りまとめを推進する予定である.具体的には,2019年度に新型コロナの影響により中止になった研究会・学会等での発表を予定している.
|
Causes of Carryover |
2020年3月に北海道で開催予定の社会システムと情報技術研究ウィークで研究成果を発表予定であった.しかし,コロナ感染拡大により研究会が中止となったため,その旅費や参加費に充てる予定であった費用を次年度に繰り越した.2020年度開催予定の研究会や研究成果の公表に掛かる費用等に充てる予定である.
|
Research Products
(5 results)