2021 Fiscal Year Research-status Report
医師の臨床判断を考慮した実診療データにおける欠測値の新しい推定方法
Project/Area Number |
20K21715
|
Research Institution | Kochi University |
Principal Investigator |
奥原 義保 高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473)
|
Co-Investigator(Kenkyū-buntansha) |
畠山 豊 高知大学, 教育研究部医療学系連携医学部門, 准教授 (00376956)
片岡 浩巳 川崎医療福祉大学, 医療技術学部, 教授 (80398049)
久原 太助 高知大学, 医学部附属病院, 臨床検査技師 (80457407)
堀野 太郎 高知大学, 教育研究部医療学系臨床医学部門, 講師 (90448382)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | Real World Data / 検査値推定 / 蛋白電気泳動 / 欠測値推定 / 機械学習 |
Outline of Annual Research Achievements |
2021年度は、DWH化した蛋白電気泳動検査結果と、オーダ検査結果を用い、蛋白電気泳動検査から血清生化学検査の値を推定する方法の確立を推進した。また、擬似的に欠測値を発生させたデータセットの補間に対して、構築した予測モデルの利用可能性を検証した。 高知大学医学部附属病院の病院情報システムに蓄積された蛋白分画検査の波形情報、蛋白分画検査と同日に実施した血液検査結果、および患者基本情報(年齢・性別)をデータとし、検査実施頻度が高い21 項目を対象とした。すべてのデータはデータセット全体の20%を検証用、80%を学習モデル構築用データセットとしてランダムに分割した。波形情報および患者基本情報から各種検査結果を予測するための機械学習モデルとして、次の6 つの学習モデルを構築した。1. ロジスティック回帰(LR )、2. L1 正則化付きロジスティック回帰(L1LR )、3. サポートベクターマシーン(SVM)、4. 一次元畳み込みニューラルネットワーク(CNN)、5. ランダムフォレスト(RF)、6. 勾配ブースティング決定木(GBDT) これらに対し、検証用データセットにおけるAUC 値を主要評価項目、正答率を副次評価項目として評価した。検査21 項目の中で、既存手法であるLR モデルよりもAUC 値の有意な上昇が認められた項目は10 項目であった。また、6 つの学習モデルの中で、12 項目においてGBDT モデルが最良モデルであった。 疑似欠測データセットに対して、蛋白分画検査の波形情報から欠測値を予測する手法においては、従来のリストワイズ法と多重代入法による欠測値対処法と比較し、本手法により推定されたオッズ比は欠測の割合に関わらず完全データから推定された真のオッズ比から大きな偏りは認められず、欠測の割合が増加しても推定値のばらつきの増大は小さかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2021年度は、データベース化した蛋白電気泳動検査結果に対応する患者の電子カルテの主訴、現病歴、身体所見、前医の所見の情報を抽出・特徴量化したデータを、新しく設置・拡張するサーバーでDWH化する予定であったが、新型ウィルス感染症蔓延の影響で情報機器の製造・流通が減少したため、導入予定のサーバ納入が遅延し、年度内の導入が実現しなかった。 このため、電子カルテ情報の匿名データウェアハウス化は保留し、すでにデータウェアハウス化した蛋白電気泳動検査結果と、オーダされた検査の結果を用いて、蛋白電気泳動検査から血清生化学検査の値を推定する方法を確立させる研究を推進した。また、擬似的に欠測値を発生させたデータセットを使用し、欠測値の補間に対して構築した予測モデルの利用可能性を検証した。
|
Strategy for Future Research Activity |
2022年度は、新しく設置・拡張するサーバーを用い、既にデータベース化した蛋白電気泳動検査結果に対応する患者の電子カルテの主訴、現病歴、身体所見、前医の所見の情報を抽出・特徴量化したデータをDWH化する。 電子カルテの主訴、現病歴、身体所見、前医の所見の情報を抽出・特徴量化したデータとその結果と「医師は異常が無いと考え検査を実施しなかった」という前提条件とを共に用い、ベイズ推定による欠測値分布モデルを構築、蛋白電気泳動検査から推定した血清生化学検査の値の結果と比較してA)「医師の臨床判断に影響する因子は何か?」B)「医師の臨床判断に含まれる因子が与えられれば、欠測値は正しく推定できるか?」を検証する。
|
Causes of Carryover |
2021年度は、データベース化した蛋白電気泳動検査結果に対応する患者の電子カルテの主訴、現病歴、身体所見、前医の所見の情報を抽出・特徴量化したデータを、新しく設置・拡張するサーバーでDWH化する予定であったが、新型ウィルス感染症蔓延の影響で情報機器の製造・流通が減少したため、導入予定のサーバ納入が遅延し、年度内の導入が実現しなかった。 このため、繰り越した助成金を2022年度に新規サーバーを導入するために使用する。
|
Research Products
(1 results)