研究課題
化学構造式データなど、グラフ構造として保持されているデータが近年増大しており、これらのデータに対する機械学習技術の重要性や関心が高まっている。本研究課題では、創薬における低分子化合物の毒性や薬物動態のADME(吸収・分布・代謝・排泄)など、機序が複雑で化学的な定義付けが困難な生物活性の予測への応用を念頭に、機械学習に基づいて統計的にグラフデータの特徴付けを与える技術開発を目指している。特にこうしたデータは出自や計測環境の異なるデータの混在に由来する「不均質さ」を伴うため、この問題に対処する技術の検討や問題の分析を行っている。本年度は、グラフデータを特徴付けする際の説明変数として部分構造特徴(部分グラフ)の有無を用いる一般的問題設定において次の研究に取り組んだ。(1) データ中に生起するすべての部分構造特徴から有効な少数の特徴だけを予測モデルを学習しながら同時に探索・学習を行う枠組みの基礎として、スパース性に対する制約付きで一般のロス関数を最小化する線形モデル学習の論文が受理・出版された。(2) 実際に創薬の現場の統計的バーチャルスクリーニングでよく用いられるECFP法(Extended Connectivity Fingerprint法)に関して、複数の不均質な実データに関して解析と精度評価を行い、グラフ学習法と比較を行った。(3) 与えられた予測問題を解く際に必要な特徴間の相関についてすべての部分構造特徴を考慮した上での決定木学習およびそのアンサンブル予測の実現・および不均質な実データに対する適用・解析を行った。
すべて 2017 2016
すべて 雑誌論文 (3件) (うち査読あり 3件、 謝辞記載あり 3件) 学会発表 (7件) (うち国際学会 2件、 招待講演 1件)
IEEE Transactions on Pattern Analysis and Machine Intelligence
巻: 36(3) ページ: 617-624
10.1109/TPAMI.2016.2567399
IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
巻: E100.A (3) ページ: 865-876
10.1587/transfun.E100.A.865
RSC Advances
巻: 6 ページ: 52587-52595
10.1039/C6RA04345C