研究課題/領域番号 |
26330242
|
研究機関 | 北海道大学 |
研究代表者 |
瀧川 一学 北海道大学, 情報科学研究科, 准教授 (10374597)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 機械学習 / グラフ / 潜在構造 |
研究実績の概要 |
化学構造式データをはじめとしてグラフ構造として保持されているデータが近年増大しており、これらのデータに対する機械学習技術の重要性や関心が高まっている。本研究では、創薬における低分子化合物の毒性や薬物動態のADME(吸収・分布・代謝・排泄)など、機序が複雑で化学的な定義付けが困難な生物活性について、機械学習によって統計的に特徴付けを与える技術を目指している。特にこうしたデータは出自や計測環境の異なるデータの混在に由来する「不均質さ」を伴うため、この問題に対処する技術の検討が課題である。
本年度は次の2点に取り組んだ。(1) 隠れ変数モデリングに基づき不均質性に対応する手法の技術的検討を行った。化学構造式に対しては構造特徴や物性特徴などに基づく様々な記述子が提案されており、記述子生成プログラムにより数百~数千の記述子ベクトルを得ることができる。この表現に対し、いくつかの隠れ変数モデルを適用し、有効な方法論の検討を行っている。(2) 本年、ECFP法のようなグラフの記述子生成の仮定をgraph convolutionと見なして固定長表現を深層学習によって得る方法が提案された。深層学習もデータの入力表現を階層的に隠れ構造に分解する手法であり課題解決に寄与すると考えられるため、記述子表現とgraph convolutionの両面を評価と検討を行っている。(3) グラフを直接入力とする厳密法の拡張として、すべての部分グラフ特徴を候補とする学習法の開発を行った。非線形構造の効率的な学習として決定木の学習アルゴリズムの構築、深い探索に落ち込むケースに対処すべくwildcardを伴う緩和表現付き部分グラフの列挙、のアルゴリズム開発を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実際の化合物データセットに基づき、様々な方法論を検討することができた。研究計画当初に想定したよりも、部分グラフ特徴の指示子空間での実データの分布は複雑であることが分かってきたが、決定木のブースティングやgraph convolutionに基づく深層学習などの新たな切り口も得ることができた。
|
今後の研究の推進方策 |
隠れ構造モデルの検討を引き続き行っているが、本年の研究を通して、化合物の記述子研究における知見や、本年に提案されたgraph convolutionなど、対象問題に対する知見を集めることができたため、典型的に使われている記述子空間の分析や理解、深層学習などの多階層計算グラフによる隠れ構造抽出について、さらに検討も行う計画である。
|
次年度使用額が生じた理由 |
主に、本年度の成果の発表が次年度になったため。
|
次年度使用額の使用計画 |
次年度の成果発表の旅費等として利用する計画である。
|