生活習慣病を始めとする慢性疾患では、その発症や重症化の危険性がある集団を早期に特定し、行政や保険者が対策を講じる事が公衆衛生の観点から重要である。既存の研究から糖尿病のリスクスコアなどが知られているものの、予測可能時期は疾患の発症や重症化と近接しており、早期介入は困難である。近年急速に発達してきた機械学習は膨大なデータを分析し、有用な規則や判断基準などから、アルゴリズムを発展させる手法である。その予測能力から医学領域では、疾患発症・重症化の早期シグナル検出への応用が期待されているものの、研究利用可能な医療データベースの不足、機械学習の手法に精通する臨床研究者の不足から充分な研究がなされていない。そこで本研究では健康診断のデータを含む医療ビッグデータに機械学習を適用し、種々の慢性疾患発症・重症化をより早期に予測するモデルを構築し、疾患発症・重症化リスクのある集団の早期特定に寄与することを目的とした。 平成29年度はSQL 言語を用いて日本医療センターより取得したレセプト・健診データの整形、結合を行い、甲状腺機能亢進症の予測モデル構築に必要なテーブル作成を行った。データに機械学習の各手法を適応し、Random forestでは重症バセドウ病の新規発症を陽性的中率100%、特異度83%で予測するモデルを構築した。今後は他の機械学習手法の適応および各種パラメーターの調整により更なる予測パフォーマンスの向上を目指すとともに、他の慢性疾患の予測モデルの開発を同様に進めていく。
|