研究課題/領域番号 |
26330265
|
研究機関 | 関西学院大学 |
研究代表者 |
猪口 明博 関西学院大学, 理工学部, 准教授 (70452456)
|
研究分担者 |
岡田 孝 関西学院大学, 理工学部, 理工学部研究員 (00103135)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 列挙アルゴリズム / データマイニング / 有機化合物 / 医薬品 |
研究実績の概要 |
化合物は原子を頂点,結合を辺とするグラフで表現することができる.本研究では,数学的に可能な化合物を表現するグラフを網羅的に列挙するアルゴリズムの研究・開発を行う.その際,明らかに自然界において存在し得ない,あるいは,存在はするものの構造的に不安定な化合物は出力には含まれない.本研究は,10の60乗とも言われる膨大な化合物空間(可能な化合物構造の集合)に関するものである.この問題に対し,グラフの高速列挙アルゴリズムの開発という形で解決を試みるのが本研究の特徴である. 本年度は,グラフ構造列挙アルゴリズムを構築した.ここでの列挙アルゴリズムは,頂点数がk個の全てのグラフ構造を列挙する.列挙された頂点数kのグラフに対して,1つの頂点とそれに繋がる複数の辺を追加し,頂点数k+1個のグラフを全て列挙する.これをk=1からはじめ,深さ優先に探索することで,取りこぼすことなく,可能な化合物構造を列挙していく. 列挙のアルゴリズム開発が順調に進んだ結果,「数学的には可能だが化学構造らしくない部分構造」を除去するためのフィルタの効率化が重要であり,また,この部分で更なる高速化が見込めることが判明した.これまでは複数のフィルタを順次適用することで結果に不必要な構造を除去していたが,Supergraph Component Search (SCS)技術を使うことで,複数のフィルタの計算を共有化できることが判明した.今後は,既存のSCS技術と本研究で新たに開発したSCS技術の比較評価を行い,我々のSCS技術を列挙アルゴリズムに組み込む予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,グラフ理論に基づいて化合物の可能な構造を列挙するアルゴリズムを構築した.このアルゴリズムは,1化合物あたり十数マイクロ秒を要し,1664億化合物を10万CUP時間で列挙する従来の研究より約1500倍高速になる見込みである. 提案手法は,化合物をグラフで表現する.ここで化合物の原子,結合,原子の種類,結合の種類が,それぞれグラフの頂点,辺,頂点ラベル,辺ラベルに相当する.また,列挙アルゴリズムは頂点数がk個の全てのグラフ構造を列挙する.列挙された頂点数kのグラフに対して,1つの頂点とそれに繋がる複数の辺を追加し,頂点数k+1個のグラフを全て列挙する.これをk=1からはじめ,深さ優先に探索することで,取りこぼすことなく,可能な化合物構造を列挙していくことができる.提案手法は,グラフ理論上可能な全てのグラフを列挙するが,それら全てが化合物として自然界において存在したり,安定していることはない.このため,自然界において存在し得ない化合物を削除するフィルタが必要となる.そこで,フィルタを組み込み可能なインターフェースを構築した.しかし,フィルタの数が増えると1化合物あたりの計算時間が増えるため,この点において改善が必要となった.これまでは複数のフィルタを順次適用することで結果に不必要な構造を除去していたが,Supergraph Component Search技術を使うことで,複数のフィルタの計算を共有化できることが判明した.
|
今後の研究の推進方策 |
今後は,現在までの達成度の項に記載したSupergraph Component Search技術をグラフ列挙アルゴリズムに組み込む方針である.ただし,既存のSupergraph Component Search技術は多数のグラフに頻繁に出現する頻出部分グラフパターンの列挙が必要となる.頻出部分グラフパターンの列挙には膨大な計算時間を要するため,頻出部分グラフパターンを用いないSupergraph Component Search技術について,研究・開発を行う予定である.
|
次年度使用額が生じた理由 |
達成度の項に記載した通り,当初は,自然界に存在し得ない化合物を結果から削除するため,関連手法と同様に,複数のフィルタを順次適用する予定であった.少数のフィルタを適用した場合は,1化合物あたり数マイクロ秒程度で化合物を列挙できていたが,フィルタの数を増やすにしたがって計算性能が劣化し,関連研究と同程度の性能となることがわかってきた.フィルタの適用はNP完全である部分グラフ同型問題に帰着できるが,単純な方法では効率化できない.この解決手段の調査の必要性が出てきたため,時間を要し,支給された研究費の一部を使用できなかった. ただし,上記の解決にはSCS技術で解決できることがわかった.既存のSCS技術を適用することもできるが,既存技術よりも1桁高速な新たな手法を開発できる見込みを得たため,研究全体としてはおおむね順調に進展していると考えている.
|
次年度使用額の使用計画 |
グラフ構造の列挙には非常に膨大な計算時間を要する.例えば,関連研究では1700億のグラフ構造を列挙するのに10万CUP時間を要した.また,列挙したグラフ構造をストレージに保存する必要もある.このための機材として,CUPの性能が高く,多くの主記憶を搭載可能な高性能ワークステーション,ネットワーク対応HDD等を昨年度購入予定であった.しかし,調査に時間を要したため,その機材を繰り越した研究費より購入する予定である.
|