2019 Fiscal Year Research-status Report
A theoretical study for the improvement of solvation model by machine learning
Project/Area Number |
19K05381
|
Research Institution | University of Tsukuba |
Principal Investigator |
松井 亨 筑波大学, 数理物質系, 准教授 (70716076)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 溶媒和モデル / 機械学習 / 分配係数 / logP |
Outline of Annual Research Achievements |
logPは体内への輸送など薬品が持つ重要な物性で、計算化学的に求めるためには、オクタノールと水中での溶媒和エネルギーの差が必要となる。溶媒和エネルギーを量子化学計算で予測する際に用いる溶媒和モデルにはさまざまな種類があるが、C-PCMとSMDの2種類を扱った。それぞれの溶媒和エネルギーの計算値と実験値の比較から、SMDは高い精度を示すが計算手法に依存してしまうことが分かった。一方、C-PCMは、計算手法への依存性は低いものの、誘電率に依存して溶媒和エネルギーの値が変わってしまうという課題がある。計算手法依存性を除去できるC-PCMの精度向上のため、この課題から生まれる誤差をそれぞれの化合物の性質と溶媒の種類から機械学習の手法により見積もった。 溶媒和エネルギーの実験値があるn-オクタノールと水の溶媒でそれぞれ205, 263種類の化合物に対して、計算手法はMP2/6-31++G(d,p)レベルで行い、溶媒和モデルとしてC-PCMを用いた。計算で使用した化合物からRDkitに実装されているフィンガープリントの一つであるMACCSkeysによって166種類の部分構造の有無を調べ、その結果からLasso回帰を用いて線形回帰を行い、誤差を補正する式を作ることで、推定誤差を導き出した。この中で、n-オクタノールについては、芳香族を持つ部位と長い炭素鎖の部位が大きな誤差を与え、水については、溶媒分子との水素結合に関係する部位を持つと誤差が大きいということが分かった。これらの誤差を補正した自由エネルギーをそれぞれ代入すると補正前よりも実験値に近いlogPが得られ、SMDの精度を上回ったことが確認された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初に予定されていた、C-PCMの補正が分子の構造に依存することが判明して、そこから生じる誤差を取り除いたら、かなりの精度が出ることが分かった。それに加えて、logPの計算値についても十分な結果が得られているために、順調に進展していると言える。その一方で、機械学習を行うにしては溶媒和エネルギーのデータが十分とは言えず、精度をさらに上げるためにより多くのデータベースに取り組む必要がある。その点で想定を上回った結果ではなかったと言える。
|
Strategy for Future Research Activity |
今後はこのデータを踏まえて、酸解離定数への応用を目指す。この場合で難しいのは、「電荷を持つ分子における溶媒和エネルギーの算出」である。多様なイオンの溶媒和エネルギーがデータベースに含まれているので、これを利用していく予定である。また、酸解離定数の導出において通常のPCMでどういう原因があって誤差が生じているかを化合物の分類などによって示していく予定である。
|
Causes of Carryover |
一つは購入予定だった計算機が想定よりも安価に入手できたことがあげられる。また、年度末に予定されていた日本化学会などの学会参加が新型コロナウイルスの感染拡大の影響を受けたために中止となるなどして、予算を執行する機会を逸してしまった。 これらについては、2020年度12月に開催予定のPacifichemに共同研究者が参加するための予算として計上する予定である。
|