2020 Fiscal Year Research-status Report
血漿タンパク結合データを利用した分布容積予測モデルの構築
Project/Area Number |
19K16436
|
Research Institution | National Institutes of Biomedical Innovation, Health and Nutrition |
Principal Investigator |
渡邉 怜子 国立研究開発法人医薬基盤・健康・栄養研究所, 医薬基盤研究所 AI健康・医薬研究センター, プロジェクト研究員 (30727326)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 薬薬物動態 / 機械学習 / in silico |
Outline of Annual Research Achievements |
当該年度は、追加データの収集、予測手法の有効性の検討、予測モデルの構築を実施した。データ収集としては、前年度に引き続きChEMBLやCTDから分布容積(Vdss)に関連するデータの収集を実施した。その後キュレーションを実施することでヒトのVdssデータのみを抽出し、単位をL/kgに統一した。L又はmLなど体重当たりに換算されていないデータに関しては元論文を調査し、日本人の場合は60kg、外国人の場合は70kgで換算を行った。次に、キュレーション済みの約800化合物の収集データを用いて複数の機械学習アルゴリズム(Random Forest及びlightGBM)によるベースモデルを構築した。このとき、トレーニングセットとテストセットはランダムに8:2の割合で10パターンで分割し、5-fold cross validationを用いてモデルを構築した。ハイパーパラメータの設定はOptunaを用いて実施し、記述子の選択はBorutaを用いで行った。最終的な精度評価は、テストセットのR2の平均値を用いて行った。精度はRandom ForestよりlightGBMが優位に高く、R2=0.45であり、このモデルをベースモデルに設定した。並行して、Vdss予測に有効であると考えられる血漿タンパク結合率(fu,p)の予測モデルを更新した。約800化合物の構造情報からfu,pの予測を行い、Vdssの予測モデルの記述子として使用する準備を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
新型コロナウイルスの流行でテレワークが増加したものの、外部からサーバーやデータにアクセスする環境を整えたため研究の進捗に影響はそれほどなかった。
|
Strategy for Future Research Activity |
来年度はfupの予測結果を新たな記述子として追加し、Vdssの予測モデルを構築する。構築した予測モデルの結果を当該年度構築したベースモデルの結果を比較し、優位に精度が向上することを示す計画である。
|
Causes of Carryover |
当該年度は情報収集及び研究発表を目的として2回の海外学会への参加及び1回の区内学会への参加を予定していました。新型コロナウィルス流行の影響ですべての学会か中止またはオンライン開催へ移行したため、次年度使用額が生じています。
|