2016 Fiscal Year Annual Research Report
ベイズ統計と量子化学を基盤とする新薬候補分子の探索
Project/Area Number |
15H02672
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
吉田 亮 統計数理研究所, モデリング研究系, 准教授 (70401263)
|
Co-Investigator(Kenkyū-buntansha) |
本郷 研太 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (60405040)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | ベイズ統計 / 量子化学 / 分子設計 / 創薬 / シミュレーション |
Outline of Annual Research Achievements |
新規機能性分子の発掘を目的に,ベイズ推論・言語モデル・第一原理計算を融合させた物質探索アルゴリズムを開発した.実験や理論計算から得られた構造物性相関データに機械学習のアルゴリズムを適用し,物質の構造から物性の順方向モデルを構築する(QSPR: quantitative structure-property relationship analysis).これにベイズ則を適用し,物性から構造の逆方向のモデルを導く.最後に,機械学習により獲得した分子構造の確率モデルを実装したモンテカルロ計算で逆方向モデルから仮説物質を発生させて,所望物性を有する埋蔵物質を発掘する(inverse-QSPR). 当該年度は,解析手法の方法論を示した論文(Ikebata et al., Journal of Computer-Aided Molecular Design, 2017)を発表し,R言語パッケージ iqsprの開発・公開を行った.パッケージには,論文で示した約16,000化合物の物性構造相関データがサンプルデータとして収録されており,10種類のフィンガープリント記述子,物性構造相関分析,SMILES文字列の言語モデル学習機能と構造生成器,逆設計計算のアルゴリズムが実装されている.パッケージはCRANレポジトリに公開されており(https://cran.r-project.org/web/packages/iqspr/index.html),2017年4月30日 時点のダウンロード数は1,627件となっている.本パッケージは新物質の同定を目的とするデータ科学の解析技術として,世界初のオープンなソフトウェアである. 応用研究では,太陽電池の有機デバイス,機能性高分子材料を対象に新たなプロジェクトを始動した.特に,低バンドギャップを有する新規分子の探索において,理論計算による検証を行い,有望な仮説構造が大量に同定された.今後は開発手法の実践・実証フェーズに本格的に移行する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
アルゴリズムのプロトタイプは概ね完成した.さらに,実験計画法に基づき第一原理計算とベイズ推論を融合させた外挿アルゴリズムSPACIERの開発に着手した.機械学習の予測は基本的に内挿的であり,データが存在しない領域においては予測能力を有していない.したがって,iqsprの物質探索は,革新的材料が存在する未踏領域に到達する前に性能が大きく低下するという問題があった.SPACIERは,この限界を突破するために開発されたiqsprの発展版である.iqspr が設計した仮想物質(既存物質のデータが少ない領域に存在)に対し,実験計画法による実験対象の物質の選定・第一原理計算による物性評価を行い,この新たなデータセットをiqsprの 順方向モデルの学習ループに入力することで,iqsprは未踏領域に対する予測性能を新たに獲得する.このループ(計算機実験によるデータの追加と再学習)を繰り返すことで,機械学習のアルゴリズムが提案する仮想物質が未踏領域に到達できるようになる.SPACIERはこの一連の計算を自動化したプログラムである.当該年度,統計数理研究所のスーパーコンピュータ(System A, SGI UV2000)及びPCクラスタに試作版システムの実装を行った.性能評価用のベンチマーク試験では,既存化合物のバンドギャップを大きく下回る仮説分子群を同定することに成功した.
|
Strategy for Future Research Activity |
プロジェクトは概ね順調に進んでいる.今後は外部プロジェクトと連携しながら,開発手法の実践・実証フェーズに本格的に移行する.特に,低バンドギャップを有する新規分子の発掘を重点目標に定める. 技術面では,当該年度内にiqsprバージョン2.0の公開を実施する.バージョン1.0では,順方向予測のオプションとして,ベイズ線形モデルのみが利用可能であった.バージョン2.0では,新たにランダムフォレスト,バギング,勾配ブースティング,深層学習,エラスティックネット回帰が加わる.また,マルチコアCPU上の並列計算や記述子の拡充,その他各種拡張機能も追加する.さらに,SPACIERの方法論とプログラムを完成させる.
|
Research Products
(9 results)