電子的診療情報により患者の状態を高次元の特徴ベクトルによって表現し機械学習を適用することで、院内がん登録業務への応用可能性を検討した。特徴ベクトルを、登録病名、投薬オーダの医薬品、検体検査項目の3種のカテゴリによって構成した。100,313件の症例を含むデータセットを構築し、がん症例と非がん症例を2値分類するタスクと、がん種別を多値分類するタスクの精度を評価した。前者の精度は、院内がん登録で行われる1次スクリーニングの精度に比べ若干良いと思われたが、後者の精度は十分ではなく、手術式等を含む医科診療行為コードや病理診断病名を特徴量として追加することが、精度を向上させる一つの方法と考えられた。
|