• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実施状況報告書

有機化合物の新規骨格創製アルゴリズムの開発

研究課題

研究課題/領域番号 26330265
研究機関関西学院大学

研究代表者

猪口 明博  関西学院大学, 理工学部, 准教授 (70452456)

研究分担者 岡田 孝  関西学院大学, 理工学部, 理工学部研究員 (00103135)
研究期間 (年度) 2014-04-01 – 2017-03-31
キーワード列挙アルゴリズム / データマイニング / 有機化合物 / 医薬品
研究実績の概要

化合物は原子を頂点,結合を辺とするグラフで表現することができる.本研究では,数学的に可能な化合物を表現するグラフを網羅的に列挙するアルゴリズムの研究・開発を行う.その際,明らかに自然界において存在し得ない,あるいは,存在はするものの構造的に不安定な化合物は出力には含まれない.本研究は,10の60乗とも言われる膨大な化合物空間(可能な化合物構造の集合)に関するものである.この問題に対し,グラフの高速列挙アルゴリズムの開発という形で解決を試みるのが本研究の特徴である.
本年度は,グラフ構造列挙アルゴリズムを構築した.ここでの列挙アルゴリズムは,頂点数がk個の全てのグラフ構造を列挙する.列挙された頂点数kのグラフに対して,1つの頂点とそれに繋がる複数の辺を追加し,頂点数k+1個のグラフを全て列挙する.これをk=1からはじめ,深さ優先に探索することで,取りこぼすことなく,可能な化合物構造を列挙していく.
列挙のアルゴリズム開発が順調に進んだ結果,「数学的には可能だが化学構造らしくない部分構造」を除去するためのフィルタの効率化が重要であり,また,この部分で更なる高速化が見込めることが判明した.これまでは複数のフィルタを順次適用することで結果に不必要な構造を除去していたが,Supergraph Component Search (SCS)技術を使うことで,複数のフィルタの計算を共有化できることが判明した.今後は,既存のSCS技術と本研究で新たに開発したSCS技術の比較評価を行い,我々のSCS技術を列挙アルゴリズムに組み込む予定である.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本年度は,グラフ理論に基づいて化合物の可能な構造を列挙するアルゴリズムを構築した.このアルゴリズムは,1化合物あたり十数マイクロ秒を要し,1664億化合物を10万CUP時間で列挙する従来の研究より約1500倍高速になる見込みである.
提案手法は,化合物をグラフで表現する.ここで化合物の原子,結合,原子の種類,結合の種類が,それぞれグラフの頂点,辺,頂点ラベル,辺ラベルに相当する.また,列挙アルゴリズムは頂点数がk個の全てのグラフ構造を列挙する.列挙された頂点数kのグラフに対して,1つの頂点とそれに繋がる複数の辺を追加し,頂点数k+1個のグラフを全て列挙する.これをk=1からはじめ,深さ優先に探索することで,取りこぼすことなく,可能な化合物構造を列挙していくことができる.提案手法は,グラフ理論上可能な全てのグラフを列挙するが,それら全てが化合物として自然界において存在したり,安定していることはない.このため,自然界において存在し得ない化合物を削除するフィルタが必要となる.そこで,フィルタを組み込み可能なインターフェースを構築した.しかし,フィルタの数が増えると1化合物あたりの計算時間が増えるため,この点において改善が必要となった.これまでは複数のフィルタを順次適用することで結果に不必要な構造を除去していたが,Supergraph Component Search技術を使うことで,複数のフィルタの計算を共有化できることが判明した.

今後の研究の推進方策

今後は,現在までの達成度の項に記載したSupergraph Component Search技術をグラフ列挙アルゴリズムに組み込む方針である.ただし,既存のSupergraph Component Search技術は多数のグラフに頻繁に出現する頻出部分グラフパターンの列挙が必要となる.頻出部分グラフパターンの列挙には膨大な計算時間を要するため,頻出部分グラフパターンを用いないSupergraph Component Search技術について,研究・開発を行う予定である.

次年度使用額が生じた理由

達成度の項に記載した通り,当初は,自然界に存在し得ない化合物を結果から削除するため,関連手法と同様に,複数のフィルタを順次適用する予定であった.少数のフィルタを適用した場合は,1化合物あたり数マイクロ秒程度で化合物を列挙できていたが,フィルタの数を増やすにしたがって計算性能が劣化し,関連研究と同程度の性能となることがわかってきた.フィルタの適用はNP完全である部分グラフ同型問題に帰着できるが,単純な方法では効率化できない.この解決手段の調査の必要性が出てきたため,時間を要し,支給された研究費の一部を使用できなかった.
ただし,上記の解決にはSCS技術で解決できることがわかった.既存のSCS技術を適用することもできるが,既存技術よりも1桁高速な新たな手法を開発できる見込みを得たため,研究全体としてはおおむね順調に進展していると考えている.

次年度使用額の使用計画

グラフ構造の列挙には非常に膨大な計算時間を要する.例えば,関連研究では1700億のグラフ構造を列挙するのに10万CUP時間を要した.また,列挙したグラフ構造をストレージに保存する必要もある.このための機材として,CUPの性能が高く,多くの主記憶を搭載可能な高性能ワークステーション,ネットワーク対応HDD等を昨年度購入予定であった.しかし,調査に時間を要したため,その機材を繰り越した研究費より購入する予定である.

  • 研究成果

    (4件)

すべて 2015 2014

すべて 学会発表 (4件)

  • [学会発表] アダマール符号を用いたグラフの類似度計算およびその性能評価2015

    • 著者名/発表者名
      片岡哲也, 猪口明博
    • 学会等名
      第104回知識ベースシステム研究会 (SIG-KBS), 社会システムと情報技術研究ウィーク
    • 発表場所
      ルスツリゾートホテル, 北海道
    • 年月日
      2015-03-01
  • [学会発表] 索引語の共起と出現頻度に着目した文書の索引付け2015

    • 著者名/発表者名
      奥井颯平, 猪口明博
    • 学会等名
      第104回知識ベースシステム研究会 (SIG-KBS), 社会システムと情報技術研究ウィーク
    • 発表場所
      ルスツリゾートホテル, 北海道
    • 年月日
      2015-03-01
  • [学会発表] 医薬品統合データベースの作成とATCコードによる横紋筋融解症の解析2014

    • 著者名/発表者名
      大森紀人, 堀川袷志, 岡田孝
    • 学会等名
      第42回構造活性相関シンポジウム
    • 発表場所
      くまもと森都心プラザ, 熊本
    • 年月日
      2014-11-13 – 2014-11-14
  • [学会発表] 横紋筋融解副作用への化学構造の影響2014

    • 著者名/発表者名
      大森紀人, 堀川袷志, 岡田孝
    • 学会等名
      第41回日本毒性学会学術年会
    • 発表場所
      神戸コンベンションセンター, 神戸
    • 年月日
      2014-07-03

URL: 

公開日: 2016-05-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi