Construction of a Large-scale Medical and Nursing Care Dummy Database and Its Application to Precision Medicine
Project/Area Number |
23K21503
|
Project/Area Number (Other) |
21H03159 (2021-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
Section | 一般 |
Review Section |
Basic Section 58010:Medical management and medical sociology-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
松居 宏樹 東京大学, 大学院医学系研究科(医学部), 准教授 (70608794)
|
Co-Investigator(Kenkyū-buntansha) |
笹渕 裕介 東京大学, 大学院医学系研究科(医学部), 特任准教授 (40782339)
康永 秀生 東京大学, 大学院医学系研究科(医学部), 教授 (90361485)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,810,000 (Direct Cost: ¥13,700,000、Indirect Cost: ¥4,110,000)
Fiscal Year 2024: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2023: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Fiscal Year 2022: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
Fiscal Year 2021: ¥11,050,000 (Direct Cost: ¥8,500,000、Indirect Cost: ¥2,550,000)
|
Keywords | 大規模医療データ / 深層学習 / 生成データ / 大規模医療データベース / 分散表現 / 因果推論 / 効果修飾 / 大規模医療介護データベース / ダミーデータ / 精密医療 / レセプトデータベース |
Outline of Research at the Start |
患者背景によって治療効果が異なるEffect Modification(効果修飾)を考慮し治療戦略を細かく設定する手法である。まず、ダミーデータベースにより機械学習を用いて検証した治療効果推定の精度を検証する。さらに、この機械学習モデルを用いて臨床現場の意思決定を支援するシステムの構築を目指す。
|
Outline of Annual Research Achievements |
近年、各種の大規模医療介護データベースが整備されている。 しかしいずれも、個人情報保護等を理由として、利用には様々な手続きや規制があり、利用者は極めて限定されている。 利用経験が少ないためにデータベースの扱いに慣れておらず、そのために研究成果がなかなか得られないという現状もある。 そこで申請者は、個人情報保護の必要がない大規模ダミーデータベースを独自に構築し、それを研究者に幅広く利用してもらい、データベース研究のトレーニングや仮説構築に役立ててもらうことを第一の目的とした。 昨年度は、研究に用いる各種医療介護データベースへのアクセスについて、管理者の承認を得て、倫理委員会の承認を受けた。 また、国が保有する大規模レセプトデータベース(NDB)についても、本研究に関連したテーマで利用申請を提出し承認された。 次に、ダミーデータ構築を目的として、DB構造の基礎設計を行い、実際に疫学研究・教育への利用を想定したシステム設計を行った。 今年度は設計したシステムにレセプトサンプルデータを基にしたダミーデータ乗せ、をWeb アプリケーションとして実装した。具体的には、WebAssembly として動作するPostgresql 上に、構築したDBを教育向けに利用した。さらに、ダミーデータを生成するためのモデルを構築する際に必要となる技術として、レセプトコードの分散表現を取得する必要があった。 当初計画通り、分散表現の獲得を行ったが、その分散表現の因果推論への応用を試みた。 この手法は、極めて多変量のデータを用いて因果推論を行う場合の交絡調整に有効である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的を達成するうえで、まず、実在の大規模医療介護データベースへのアクセスを確保する必要がある。今年度はレセプトサンプルデータを基にしたダミーデータを作成し、教育と臨床疫学研究への応用を行った。複数名の研究所学者がダミーデータを利用し、研究計画・データの抽出計画を構築することができ研究の応用までプロジェクトが進んでいる。また、構築した分散表現を因果推論へ応用する手法を開発した。 2018年4月から2020年3月の間のDPCデータベースを利用した。研究は以下で構成した。i) すべての医療請求情報データに含まれるコード(レセプト電算コード・ICD10コード)についてword2vec を用いて分散表現を作成した。 ii) 既報の臨床疫学研究に基づき、心不全患者を対象とし、その医療請求情報データを抽出した。このデータをシミュレーションに用い、4つのリスク調整法(調整なし(Model 1)、既報の臨床疫学研究で報告された交絡因子の調整(シミュレーションにおける真のリスク調整モデル、Model 2)、入院初日の全医療請求情報データに分散表現重みを紐づけ、その合計を計算しリスク調整に用いる(提案手法、Model 3)、Model 2と3の組み合わせ(Model 4))で、推定された効果量と曝露群と対照群間の共変量バランスを比較した。iii) 既報の臨床疫学研究(心不全患者における早期リハビリテーションの効果を検討)のリスク調整にModel 1-4を適用した。それぞれのリスク調整法の結果を比較した。 シミュレーションにおいて、分散表現が高次元医療請求情報データを圧縮し、未測定交絡因子の影響のある比較効果研究のリスク調整に役立つことを示し、2023年度臨床疫学会で発表し、優秀演題賞を獲得した。
|
Strategy for Future Research Activity |
従来の研究計画に沿って研究をすすめる。 今年度までで、サンプルデータを用いたレセプトダミーデータを構築し、研究・教育利用することに成功している。 さらに、大規模なレセプトデータベースを用いて因果推論を行う上で、大規模データをそのままモデルに投入する方法を構築できた。 今年度は、まず、大規模データを用いた生成モデルを構築する。これにより、大規模な医療ダミーデータベースを生成する。大規模な医療ダミーデータベースを用いることで、すでに構築した教育プログラムを更新する。 さらに、今年度開発したレセプトデータベースを用いて因果推論を行う手法を応用し、因果推論およびEffect Modification に関するテーマも検討する。
|
Report
(3 results)
Research Products
(11 results)