臨床医学研究において観察研究は代表的な研究方法の一つだが、介入群と対照群への割り当てがランダムではないため、バイアスや交絡の調整が必要である。成人を対象とした合併症や手術難易度に基づくスコアモデルは多変量解析で広く利用されているが、本邦の小児科領域に適用できるものがまだまだ少ない。本研究は小児科領域の入院患者の予後予測やリスク層別化へと繋がる予測モデル構築を目的とした。 2010年度から2019年度のDPCデータベースを用いて、先天性心疾患による入院を特定し、データセットを作成した。従来のロジスティック回帰モデルに加え、Lasso回帰、XGboost、ディープニューラルネットワークによるモデルも作成し、性能を検証した。Lasso回帰による変数選択では、先天性心疾患手術の変数から死亡リスクの予測性能向上に関連の高いものが絞り込まれた。ディープニューラルネットワークモデルはDPCのような1と0の多いデータでは予想していたよりも遥かに汎化性能が低く、極端に偽陽性が多かったり、的中が0といった結果ともなった。従来的な統計モデルであるロジスティック回帰の方がAUC 0.8を超えて汎化性能が高く、ランダムフォレストやXGboostと比べても計算コストが少なかった。既存の先行研究から、データ内容によっては統計モデルの方が複雑な機械学習やディープニューラルネットワークより優位となることが知られているが、今回の結果もその知見に沿っていた。本研究で蓄積されたDPCデータ抽出フローやデータセット作成の自動化やモデル選択の知見は他疾患領域の研究にも応用した。
|