研究課題/領域番号 |
20K18973
|
研究機関 | 独立行政法人国立病院機構本部(総合研究センター) |
研究代表者 |
井上 紀彦 独立行政法人国立病院機構本部(総合研究センター), 診療情報分析部, 主任研究員 (60867068)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | DPC / 多変量解析 / 先天性心疾患 |
研究実績の概要 |
小児の先天性心疾患リスクスコアモデル構築のため、引き続きデータセット更新及び予測に必要な変数の絞り込み、予測モデルの作製を行った。診療報酬の包括評価制度であるDPCのデータベースに記録された2010年度から2019年度の患者データをデータソースとして用いた。疾病及び関連保健問題の国際統計分類ICD-10コードやDPCコードを用いて、先天性心疾患による入院を特定した。 作成したデータセットに対してモデルの性能を検証するに当たり、従来より統計モデルとして広く用いられている一般化線形方程式によるロジスティック回帰モデルの他に、Lasso回帰による変数選択モデル、XGboost、ディープニューラルネットワークによるモデルも作成した。Lasso回帰による変数選択手法に関しては、先天性心疾患手術の変数から死亡リスクの予測性能向上に関連の高いものを絞り込み、因子の探索と予測モデルの作成、予測能の検証を行った。今回作成したディープニューラルネットワークによる予測モデルは汎化性能が低く、診療報酬ベースのデータのように0の多いスパースなデータ空間に対してはパラメーターチューニングや層の設定に関する探索がさらに必要と考えられた。従来的なロジスティック回帰の方が汎化性能が高く、計算コストが非常に少なかった。 本研究で培われたDPCデータベースのデータ抽出、データセット作成、解析プログラムによる知識は、小児先天性心疾患以外の分野にも積極的に応用して、外部への発表や共同研究を行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
DPCデータベースに毎年発生するデータの追加と更新にも対応できるようデータ抽出フロー及び抽出プログラムを設計したのち、データセットの作成や更新を順次行った。DPCデータの患者基本情報と診療行為情報を取得したのち、外れ値のクリーニング、欠測値補間、集計の仕組みを可能な限り自動化・アップデートして、他の研究においても応用の効くプログラムを作成したが、これに関してはDPCの仕様変更や、より最適化されたデータ抽出と加工のためのアップデートを実施した。 予測モデルに関しては、広く用いられている一般的なロジスティック回帰モデルの他に、Lasso回帰による変数選択の使用、eXtreme Gradient Boosting (XGboost)、ディープニューラルネットワークによる予測モデルも作成した。ディープニューラルネットワークによる予測モデルは思ったほど汎化性能が高くなく、診療報酬データのように0の多いスパースなデータ空間に対してはパラメーターやレイヤーの設定を作り込む必要性があると考えられた。従来的なロジスティック回帰モデルの方がXGboostやディープニューラルネットワークより汎化性能が高く、また計算コストも少なく効率的であった。変数の絞り込みは今後も改善の余地があり、引き続き変数探索を行っていく予定である。 本研究で蓄積されたデータセット作成、欠測値補完、多変量回帰の知識は、DPCデータを用いる他の研究にも応用して複数の原著論文出版の成果を出すことができた。新型コロナ感染症の流行によって物流遅延や人の移動制限などがあったため、データ抽出とその更新、物品調達、外部との研究ミーティングなど多くの部分で影響を受けたため、2023年度に研究期間延長をすることとした。
|
今後の研究の推進方策 |
今後、DPCデータベースの更新に合わせてデータを更新して、予測モデルの精度向上を行う予定である。現在までに得られた大規模診療データベースからのデータ抽出や予測モデル作成の知識に関しては、今後もDPCデータやレセプトデータ、電子カルテデータを用いる臨床疫学研究に積極的に応用して論文や学会発表を行っていく。
|
次年度使用額が生じた理由 |
新型コロナ感染症の流行により、出張制限や、物流遅延や半導体不足の影響による計算機のパーツ調達に遅れが生じるなど進捗に多大な影響を受けた。また、今後の論文発表する際にオープンアクセス論文として雑誌社から要求される論文投稿料分を想定して取り置いてある。
|