前年度までの研究により、基質の種類によって反応成績がかなり変わることが判明した。ペプチドやアミノ酸の組み合わせは膨大であり、これらの基質を変える毎に合成条件の最適化を行う場合、多大な労力と時間を要することになる。この手法をさらに実用的なものとするには、今後基質の組み合わせによってどのような反応条件を設定すれば、最も高い成績が得られるかを事前予測できるようにすることが重要であるとの考えに至った。そこで、最終年度にはこれを実現するための第一歩として、基質の組み合わせをまずは固定して、様々な条件下における最低100以上の反応成績を収集し、得られたデータを機械学習により解析することで今後の事前予測を実現するアプローチの構築を目指した。実際にマイクロフロー合成実験を180条件分実施し、HPLC解析により各々の条件における目的物の収率とエピマーの収率を同定した。180条件の内、70%にあたる126条件分をトレーニングデータセット、30%にあたる54条件分をテストデータセットとして、Ridge回帰モデル、Lasso回帰モデル、サポートベクター回帰モデル、ランダムフォレスト回帰モデル、ニューラルネットワークを学習器として用いて、機械学習を実施し、予測精度を評価した。その結果、検討した学習器の中ではランダムフォレストおよびニューラルネットワークが高い予測精度を示し、特にランダムフォレストはより少ないトレーニングデータセット数でも予測精度が維持されることがわかった。また、ニューラルネットワークでは高い予測精度を得るために、適切なハイパーパラメータ―の設定が肝要であることが示唆された。また、この検討の過程で、当初予測していなかったパラメーターが副反応に重大な影響を及ぼすことが示唆され、未知の反応機構により副反応が進行している可能性が浮上した。
|