2018 Fiscal Year Research-status Report
複数疾病を伴う高齢入院患者の予後予測因子の同定:機械学習モデルの解釈性の向上
Project/Area Number |
18K18471
|
Research Institution | Institute for Health Economics and Policy, Association for Health Economics Rsearch and Social Insurance and Welfare |
Principal Investigator |
清水 沙友里 一般財団法人医療経済研究・社会保険福祉協会(医療経済研究機構(研究部)), 医療経済研究機構, 主任研究員 (60625408)
|
Co-Investigator(Kenkyū-buntansha) |
原 聡 大阪大学, 産業科学研究所, 助教 (40780721)
伏見 清秀 東京医科歯科大学, 大学院医歯学総合研究科, 教授 (50270913)
|
Project Period (FY) |
2018-06-29 – 2021-03-31
|
Keywords | 大規模医療データベース / 機械学習 / 予測モデル / マシーンラーニング |
Outline of Annual Research Achievements |
高齢化社会の到来を迎え、疾病構造の変化やマルチモビディティへの対応は世界各国の共通的政策課題の一つである。高齢者の脆弱性を包括的な視点から評価を行い、予後悪化の要因を明らかにすることは重要な課題であるが、社会医学領域においては、予測力に劣る線形回帰モデルの利用から脱却できない故に、複雑な疾病の併存状況のパターンを評価できていないなど、データ的・手法論的に挑戦可能な課題も数多く残っていた。 平成30年度7月より開始した本研究においては、①公開可能なデータベースの構築、②線形回帰モデルと機械学習モデルの予測力の比較 を実施した。①は、C++およびSQL Serverをっ用いて、H31年3月1日現在の各地方厚生局が公表した全国の医療機関・薬局情報を分析可能なテーブル形式に整形し、全国の医療機関・薬局の一覧データを作成した。本データは、オープンデータの観点からデータジャーナルに投稿し、令和元年夏までに公開予定である。②においては、肺炎の入院データを用いて、ロジスティック回帰モデル、ランダムフォレスト、XGBOOSTの3手法による予測モデルの構築と、予測力の比較を実施した。本分析結果は、3手法ともに非常に高いモデル精度を示した(最も高いXGBOOSTでモデル構築のAUCが88.00%、モデル検証で85.04%)。本分析により、医療管理データの持つデータ特性と、機械学習モデルとの分析上の親和性を加味し、分析モデルを選択することの重要性が示唆された。我が国の医療管理データを用いた機械学習モデルと線形モデルの分析手法の比較研究は筆者らの知る限りは実施されておらず、本分析が本邦初の研究結果であると考えられる。加えて、ロジスティック回帰モデルにおいても、医学分野における分析では用いられていない変数処理法を採用することにより、より精度の高いモデルが構築できる可能性が示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
初年度のデータ構築・分析が終了し、データ公開のための論文、およびデータ分析の論文の執筆が開始されているため。
|
Strategy for Future Research Activity |
初年度は、データベースの構築が終了し、機械学習モデルと線形モデルの予測力の比較を実施した。分析手法毎の予測力の比較自体にも意味があったが、この分析を通じて、医療の管理データにはカテゴリカルフィーチャーが多いという特性からは、モデルの精度を上げるという観点からは決定木のようなタイプのモデルには一定の限界があることも示唆された。ブラックボックスモデルのホワイト化を検討する上では、ホワイト化することに資するほどに、機械学習モデルの予測力が線形モデルよりも圧倒的に優れていることがまず前提になると考える。初年度の結果は、モデル精度はXGBOOSTの予測力が高いものの、ロジスティック回帰モデルにおいても高いAUCを示しており、初年度の分析結果を用いてホワイト化を検討するには至らないと判断した。医療データの特性にあった機械学習モデルの利用はどのようなものなのかを検討することは非常に興味深いテーマであり、今後の研究の推進方策としては、まず初年度の結果のアウトプットを実施すると共に、新たに①医療管理データの分析において、機械学習モデルがフィットする分野は何か ②カテゴリカルフィーチャーのクラスタ化などでモデル精度の向上が対応可能か を検討することとする。機械学習モデルの予測力が高い分析の枠組みを構築した後に、ブラックボックスモデルのホワイト化についての検討を実施する予定である。
|
Causes of Carryover |
学会発表を実施しなかったため
|