研究課題/領域番号 |
20K18973
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分58030:衛生学および公衆衛生学分野関連:実験系を含まない
|
研究機関 | 独立行政法人国立病院機構本部(総合研究センター) |
研究代表者 |
井上 紀彦 独立行政法人国立病院機構本部(総合研究センター), 診療情報分析部, 主任研究員 (60867068)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2020年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
|
キーワード | DPC / 多変量解析 / 先天性心疾患 / 予測モデル / 疫学 / Lasso回帰 / 小児 / データベース / リアルワールドデータ / ビッグデータ / 心臓外科 / 小児科 / リスクスコアモデル |
研究開始時の研究の概要 |
DPCデータのICD-10コードに基づく入院時傷病名や合併症、医療行為、手術難易度を結合したデータセットから、予後予測に有用な因子を特定して、小児入院患者のリスクスコアモデルを構築する。モデルの予測能に関して統計学的な精度・有用性の検証を行う。期待される成果として、成人と疾病分布や診療行為の内容が異なる小児科領域において、予後予測やリスク層別化に必要なバイアス・交絡の調整手段を提供する。
|
研究実績の概要 |
小児の先天性心疾患リスクスコアモデル構築のため、引き続きデータセット更新及び予測に必要な変数の絞り込み、予測モデルの作製を行った。診療報酬の包括評価制度であるDPCのデータベースに記録された2010年度から2019年度の患者データをデータソースとして用いた。疾病及び関連保健問題の国際統計分類ICD-10コードやDPCコードを用いて、先天性心疾患による入院を特定した。 作成したデータセットに対してモデルの性能を検証するに当たり、従来より統計モデルとして広く用いられている一般化線形方程式によるロジスティック回帰モデルの他に、Lasso回帰による変数選択モデル、XGboost、ディープニューラルネットワークによるモデルも作成した。Lasso回帰による変数選択手法に関しては、先天性心疾患手術の変数から死亡リスクの予測性能向上に関連の高いものを絞り込み、因子の探索と予測モデルの作成、予測能の検証を行った。今回作成したディープニューラルネットワークによる予測モデルは汎化性能が低く、診療報酬ベースのデータのように0の多いスパースなデータ空間に対してはパラメーターチューニングや層の設定に関する探索がさらに必要と考えられた。従来的なロジスティック回帰の方が汎化性能が高く、計算コストが非常に少なかった。 本研究で培われたDPCデータベースのデータ抽出、データセット作成、解析プログラムによる知識は、小児先天性心疾患以外の分野にも積極的に応用して、外部への発表や共同研究を行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
DPCデータベースに毎年発生するデータの追加と更新にも対応できるようデータ抽出フロー及び抽出プログラムを設計したのち、データセットの作成や更新を順次行った。DPCデータの患者基本情報と診療行為情報を取得したのち、外れ値のクリーニング、欠測値補間、集計の仕組みを可能な限り自動化・アップデートして、他の研究においても応用の効くプログラムを作成したが、これに関してはDPCの仕様変更や、より最適化されたデータ抽出と加工のためのアップデートを実施した。 予測モデルに関しては、広く用いられている一般的なロジスティック回帰モデルの他に、Lasso回帰による変数選択の使用、eXtreme Gradient Boosting (XGboost)、ディープニューラルネットワークによる予測モデルも作成した。ディープニューラルネットワークによる予測モデルは思ったほど汎化性能が高くなく、診療報酬データのように0の多いスパースなデータ空間に対してはパラメーターやレイヤーの設定を作り込む必要性があると考えられた。従来的なロジスティック回帰モデルの方がXGboostやディープニューラルネットワークより汎化性能が高く、また計算コストも少なく効率的であった。変数の絞り込みは今後も改善の余地があり、引き続き変数探索を行っていく予定である。 本研究で蓄積されたデータセット作成、欠測値補完、多変量回帰の知識は、DPCデータを用いる他の研究にも応用して複数の原著論文出版の成果を出すことができた。新型コロナ感染症の流行によって物流遅延や人の移動制限などがあったため、データ抽出とその更新、物品調達、外部との研究ミーティングなど多くの部分で影響を受けたため、2023年度に研究期間延長をすることとした。
|
今後の研究の推進方策 |
今後、DPCデータベースの更新に合わせてデータを更新して、予測モデルの精度向上を行う予定である。現在までに得られた大規模診療データベースからのデータ抽出や予測モデル作成の知識に関しては、今後もDPCデータやレセプトデータ、電子カルテデータを用いる臨床疫学研究に積極的に応用して論文や学会発表を行っていく。
|