2017 Fiscal Year Research-status Report
質の異なる化合物データベースからの薬理活性予測モデルの学習
Project/Area Number |
17K00320
|
Research Institution | Kwansei Gakuin University |
Principal Investigator |
猪口 明博 関西学院大学, 理工学部, 准教授 (70452456)
|
Co-Investigator(Kenkyū-buntansha) |
田中 大輔 関西学院大学, 理工学部, 准教授 (60589399)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 機械学習 / データマイニング |
Outline of Annual Research Achievements |
化合物は原子,化学結合,原子の種類,結合の種類をグラフの頂点,辺,頂点ラベル,辺ラベルとするグラフで表現することができる.各化合物は,例えば,変異原性などの特性を有するが,本研究の目的は,変異原性が既知の化合物から,化合物の構造的特徴と変異原性の関係を計算機に学習させ,変異原性が未知の化合物の変異原性を予測することである.一般に機械学習で用いられる手法は,元データがベクトル形式で表現されていることを前提とするが,前述の通り化合物はグラフで表されているために,既存の機械学習手法を直接この問題に適用することはできない.このため,グラフをベクトル形式に変換する必要がある. グラフをベクトル形式に変換するための1つの方法は,ある部分構造を含むか否かによって,2値ベクトル化することである.しかし,化合物が部分構造を持つかを調べることは,部分グラフ同型問題であり,多くの計算時間を有する.本研究では,リラベルと呼ばれる手法を用いて,グラフにどのような部分構造が含まれるかを高速にチェックする手法を用いた.グラフの頂点数をV,平均線度をd,ラベルの種類をΣ,リラベルの回数をhとすると,その計算量はO(dhVΣ)であり,各グラフ(化合物)に含まれる部分構造を列挙できることを確認した.この手法を,特性既知のデータベース(約200化合物)と特性未知の人工化合物(5000万化合物)に適用し,機械学習法が適用できるデータセットを整備した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
「研究実績の概要」に記載の通りの成果を達成した. 上記のリラベルの手法を拡張し,2つのグラフの近似編集距離を高速に求める手法を開発した.グラフの編集距離とは,2つのグラフg1とg2が入力として与えられたときに,g1をg2に編集する最小の編集操作数である.ここでの編集操作とは頂点や辺の追加,削除,頂点や辺ラベルの変更を指す.編集距離を求める問題はNP困難であることが知られているため,大きなグラフに対して適用できる実用的な手法はない.このため,多くの手法は,近似編集距離を求めることに焦点を当てている.我々は,リラベルと2部グラフマッチング問題を組み合わせて,高速に,かつ正確に近似距離を求める手法を提案した.この近似距離を2つのグラフの類似度とすることで,変異原性が既知の化合物を92.5%の精度で予測できた.このような派生の研究成果がでていることから,本研究は計画以上に進展している.
|
Strategy for Future Research Activity |
「研究実績の概要」に記したデータセットを機械学習法に与え,学習を行う.このデータベースは質の異なる2種類の化合物データベースからなるため,既存手法とは異なる学習法を考案する必要があるが,これに関わる研究を行う予定である. これと並行して,人工化合物データベースの作成に必要な要素技術を作成する.具体的には,人工化合物データベースの作成方法はグラフ列挙アルゴリズムに基づく.グラフ列挙アルゴリズムを用いて,様々なグラフを列挙し,それを化合物として扱う.しかし,任意のグラフが化合物と一対一対応するわけではなく,特定の部分グラフを含むグラフは化合物として成り立たないことが知られている.このため,列挙された部分グラフが特定の部分グラフを含まないかチェックする必要があるが,この問題はデータベース分野におけるスーパーグラフ検索で解くことができる.このため,上記の学習法と並行して,スーパーグラフ検索に関する基礎研究を行う予定である.
|
Causes of Carryover |
既設の計算機資源を用いて研究・開発を行ったため予定していた計算機の購入を控えた.研究の進捗は順調であり,30年度に成果報告等のために国内外の旅費として,29年度の繰越金を30年度に執行予定である.
|
Research Products
(2 results)