2021 Fiscal Year Research-status Report
Development of high-dimensional Hansen solubility parameters by convolutional neural network
Project/Area Number |
21K14451
|
Research Institution | Tokyo University of Science |
Principal Investigator |
村上 裕哉 東京理科大学, 工学部工業化学科, 助教 (80880757)
|
Project Period (FY) |
2021-04-01 – 2023-03-31
|
Keywords | Hansen溶解度パラメータ / ニューラルネットワーク / 機械学習 / 物性推算 |
Outline of Annual Research Achievements |
本研究では,Message Passing Neural Network (MPNN)と大規模データベースを活用した事前学習によって,分子の三次元構造によりから物性を予測することを目的とし,種々の物性の収集とモデルの学習を行う. MPNNの事前学習には,13万種類以上の低分子量分子の三次元構造および量子物性を収録したQM9データベースを利用した.これにより分子構造における特徴をベクトル表現した特徴ベクトルを作成に成功した.特徴ベクトルは,三次元構造のような大きく可変長の情報を圧縮した上に一定長に変換することが可能で,既存の溶解度パラメータなどと同様に物性推算に利用可能であると考えられる.実際に,得られた特徴ベクトルを既存のHansen溶解度パラメータと比較すると,一定の類似性が確認できた. 続いて,得られた特徴ベクトルを基に,限られた実測データから物性推算が行えるかどうかの検証を行った.具体的には,特徴ベクトルを全結合型のニューラルネットワークで処理することにより物性推算を行った.物性としては,沸点・融点や臨界定数などの基礎物性を選択し,その予測精度は既存のグループ寄与法による推算結果と比較した.結果,既存手法と比較して良好な推算精度を得ることができた. 本手法の最大の特徴として,MPNNによる効率的な特徴抽出によって限られた学習データから物性推算が可能となる点にある.例えば沸点については,学習データが50点程度であっても既存手法と同程度の推算精度を得ることが可能である.また,学習に用いない実測値の予測精度に関しては,既存手法を大きく凌駕する精度が得られた.これは,1)特徴抽出ベクトルの利用による入力情報量の増加,2)ニューラルネットワークによる非線形関係の高い表現力の効果に起因すると考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究では,利用するMessage Passing Neural Networkモデルの作成とそのパラメータチューニングに多くの時間が必要となると予想されていたが,既存の報告モデルを参考にすることで,モデルの作成,事前学習に成功した.また,既存モデルに対してAttention機構と呼ばれる情報の取捨選択を担う機構を導入することにより,モデルの効率的な学習に成功し,分子の三次元構造のみを入力値とする機械学習モデルの作成に成功した. これらのモデル作成により,既存の大規模データベースQM9からの事前学習が可能となり,分子の三次元構造から特徴ベクトルを抽出することに成功した.また,本特徴ベクトルはHansen溶解度パラメータとの類似性も有しており,既存の溶解度パラメータと同様に分子の特徴を良好に表現する定量的指標として活用可能であることが示唆された. 得られた特徴ベクトルは,実際に物性推算に用いた.具体的には,全結合ニューラルネットワークを用いて沸点・融点・臨界定数の推算を行った.結果,沸点や臨界温度などの因子について良好な推算が可能であることが示された.特に,大規模データベースによる事前学習を行ったことで,限られたデータから未知物質の物性推算が可能となることが示された.推算精度を既存のグループ寄与法と比較したところ,アルカンやアルコールといった単純な分子構造についても,学習データに含まれない物質はMPNNが高い制度で推算可能であることが示された. 以上の成果より,モデル作成・事前学習・物性推算まで実現可能であることが既に示唆されており,当初の計画よりも順調に研究が進行していると考えられる.
|
Strategy for Future Research Activity |
これまでに,低分子量分子データベースQM9を活用することで,モデルの事前学習と物性推算に成功した.今後は,高分子量分子でも同様の推算が可能であるかを検証するために,異なるデータベースを活用した更なる事前学習を行う.特に,近年は量子化学に基づいた量子物性データベースが多く推算されており,これらの量子物性からバルク物性を推算するためのモデル作成に取り組む. 加えて,Hansen溶解度パラメータとの相関についても定量的な評価を進める.昨年度までは,機械学習モデルから得られた特徴ベクトルとHansen溶解度パラメータとの間に類似性がある事は確認しているが,定量的に各パラメータの相関性を評価していない.また,特徴ベクトル作成時にHansen溶解度パラメータを取り込むことで,バルクの物性を表現可能なパラメータ作成が可能になることも予測される.これらの検証を行うために,(1)特徴ベクトルとHansen溶解度パラメータの相関による溶解度パラメータの多次元化,(2)得られた多次元パラメータからの物性推算とその精度の既存手法との比較を行う. 以上の検討結果を基に,最終的に混合物の物性推算手法の確立を目指す.具体的には,溶解度の推算が可能となるように,複数の物質の特徴ベクトルを入力値として,その親和性を出力できる機械学習モデルを作成する.Hansen溶解度パラメータとは異なり,単純なL2ノルムではなく,パラメータ間の非線形関係から親和性を求めることで,精度の向上を図る.作製モデルと実測値の比較により,当初計画していた溶解度パラメータの拡張という目的がMPNNの活用によりどの程度達成可能かどうかを評価する.
|
Causes of Carryover |
本年度は,大規模データベースを活用した機械学習モデルの作成が当初の予定よりも順調に進行したため,実測値収集を行わずにMessage Passing Neural Networkによる高精度な物性推算が可能となった.併せて,コロナ禍の対応における人的リソースの不足もあり,実測値収集は次年度に行うことが適切と判断した.特に得られたモデルの評価には,実測データが必要であるため,次年度は計画に含まれていた通りに実測データ収集を行う.これに伴い,測定に用いる予定だった分析装置や試薬の大部分を次年度に購入することとなり,次年度使用額が発生した.
|