2021 年度実施状況報告書

生物学的利用率の予測モデル構築：精査済みIn vitroデータからの転移学習

研究課題

研究課題/領域番号	20K16075
研究機関	滋賀大学
研究代表者	江崎剛史滋賀大学, データサイエンス教育研究センター, 准教授 (20717805)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	ADME / 機械学習 / 吸収率 / 構造記述子
研究実績の概要	創薬には膨大な労力と費用が掛かっており、1つの医薬品研究開発にかかる年月は10-18年、費用は2500億円以上にのぼるとの報告がある。従来は、ある標的分子に作用する可能性がある化合物候補を合成し、薬物動態や安全性に関する試験を行い、薬としてのポテンシャルが低い（溶解性や膜透過性が低い、または毒性があるなど）と判断された化合物を除外していく。そして残った化合物は合成して構造を最適化し、再度試験を行う。この作業を繰りし、治験薬として創り上げていく。この従来法では、大量の化合物を準備することから始まり、多くの実験を行って薬を絞り込むため、膨大な労力と費用がかかる。そこで、化合物の構造から「薬としてのポテンシャル」としての生物学的利用率（Bioavailability, BA）を予測する手法の開発にした。初年度で、公共データベースであるChEMBLから吸収と代謝に関するin vitroの実験データを収集したため、今年度はこれらのデータを公開した論文に戻り、実験条件や実験値と単位の確認を行い、データセットの質を高めた。また、モデルを構築した際に、予測精度が十分に向上しない可能性がある。BAは代謝に関する情報を持ち合わせた特性であるため、代謝の情報を組み込むことで、予測精度の向上が見込める可能性がある。その場合に備え、代謝酵素の基質性を評価した実験データの収集の開始した。また、Graph Convolutionによって算出した特徴量を深層学習の入力とした予測モデル構築を開始した。最終年度で転移学習やマルチタスク学習を適用した枠組みを検討するための環境整備を実施した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究課題では、既存のデータベース（ChEBMLなど）から独自に精査して収集した大量データを使用してモデルを構築する。収集するデータは、吸収や代謝に関係のあるin vitro試験の溶解性（Sol）、Caco-2細胞を使用した膜透過性（Papp）、ヒト肝ミクロソームを使用した代謝安定性（CLint）、そしてin vivo試験で得られたヒトBAとしており、多くのデータ収集とデータ精査が完了し、質の高いデータセットの用意を完了した。また、代謝に関する情報を拡充するため、代謝酵素の基質性を評価した実験データの収集の開始することができた。化合物の特徴として、各原子と繋がりをグラフとして記述子するGraph Convolutionの実装を開始し、BA予測に向けた準備が整ってきた。深層学習の枠組みも構築し、最終年度で特徴量とモデル構造を検討するまでの準備を完了することができた。以上の点から、本研究課題に関して、おおむね順調に進展していると言える。
今後の研究の推進方策	本研究課題でモデル構築に使用するデータセットは、大部分が収集できている。ただ、更なる適用範囲の拡大を目指すために、より多くのデータベースから継続してデータを収集していく。そして、複数の化合物の特徴に対し、BAの予測に有効な特徴量の検討を開始し、適した組み合わせの探索を行う。これらのデータを基に、複数パラメータの情報を活かしながら効果的に学習を行い、モデルの構築を目指す。一方で、使用する情報が多くなるために、学習が非常に複雑になるといった問題点がある。本研究課題で予測を目指すBAは様々な要素が関わる複雑なパラメータであり、高い精度で予測することが困難であるが、これらの学習法を有効に組み合わせ、高精度で予測するモデルを構築する。構築したモデルの精度が十分でないときは、腸管および肝利用率（Fg、Fh）の関連性から代謝酵素の基質性も組み込むことを検討する。構築したモデルは広く使えるように公開方法の検討を開始するとともに、国際誌への投稿や学会において成果を発表する。
次年度使用額が生じた理由	研究データの収集に契約予定としていたデータベース（ADME Database）が販売を中止した。他のデータベースよりデータ収集ができたため、本課題の進捗には問題はなかったが、その費用が次年度使用額として発生した。