研究実績の概要 |
本研究は患者の疾患や状態を高次元の特徴ベクトルによって表現し、機械学習により精度の高いEHR Phenotypingを行うアルゴリズムの開発を目指す。H30年度はEHRデータの次元削減を行う方法を検討した。まず、既存の分類体系を用いた変数の集約方法について、登録病名にはICD-10コードが付与され、これは4桁の粒度で約14,000項目が存在し、そのうち約7,500項目が電子カルテ上で出現しうるコード数となる。がん症例かどうかの判別に4桁の粒度までの情報は不要と考え、3桁のコードに集約した。医薬品は日本標準商品分類番号(6桁)の下4桁で用いられる薬効分類コードを変数の集約単位とした。薬効分類コードの上3桁には抗腫瘍薬として、アルキル化剤、代謝拮抗剤、抗腫瘍性抗生物質製剤、抗腫瘍性植物成分製剤、その他の腫瘍用薬が分類されるため、がん症例かどうかの判別に有効と考えられた。検体検査項目は、標準コードとしてJLAC10が用いられるが、本研究のために抽出したデータセットには標準コードの付与割合が高くなかったため、病院のローカルコードを用いることとした。これら、集約した3カテゴリの変数の次元数はそれぞれ、1,411、910、1,740であり合計4061であったが、更なる次元削減の方法として、主成分分析による次元削減の方法を検討した。各カテゴリ毎に主成分分析を行い累積寄与率を元に決定した低次元の変数を結合したデータを入力として、約10万症例のがんの有無を分類するロジスティクス回帰モデルの精度を評価し次元削減の効果を検討した。
|