大規模入院データ(Medical Data Vision社から購入した38病院のDPC情報および採血検査結果)から30日以内の予定外再入院を予測する複数の機械学習・ロジスティック回帰モデルを構築し、その予測能の比較を行った。その結果、機械学習の一種であるgradient-boosted decision tree(GBDT)が最も識別能に優れることが明らかになった。一方で、予測変数の項目数を増やし採血結果を予測に用いるほど、機械学習のベネフィットが高まることを期待していたが、最も項目数の多い(採血結果含む1543項目)データセットにおいて、GBDTとロジスティック回帰の識別能に大差はなかった。
|