研究課題/領域番号 |
19K19433
|
研究機関 | 山梨大学 |
研究代表者 |
大岡 忠生 山梨大学, 大学院総合研究部, 特任助教 (40803987)
|
研究期間 (年度) |
2019-04-01 – 2021-03-31
|
キーワード | 疾患予測モデル |
研究実績の概要 |
研究協力施設の健康診断データを用いて、5年以内の糖尿病発症を予測する複数のモデルを作成した。そのうち、産業保健分野や健康診断施設への適用が可能と考えられる、定期健康診断の項目のみから構成される説明変数から糖尿病の発症を予測するモデルを作成した。モデルの作成時には、昨年度に構築したランダムフォレストだけでなく、スパースロジスティックモデルも使用した。単年度のみのデータを用いるのみならず、3年連続の健康データを用いることで、より高い精度のモデル構築を目指した。3年連続の健康データではそれぞれ単年度のデータのみならずその間の変化量、更には値や変化量同士の交互作用をも変数に含めることで、10000弱の説明変数からアウトカムを予測するモデルも作成した。これは、既存のリスクモデル研究で用いられていた回帰モデルをそのまま用いることでは達成できず、機械学習モデルを用いるからこそ達成することが出来た予測でもある。今後の研究展開として、DeepLearningでの精度確認を行ったのちに、RandomForest、スパースロジスティック、DeepLearningを用いて作成したモデルが、他の研究協力施設での健康診断データを用いたとしても良好な精度での予測が保たれるかどうかを検討し、精度面と予測因子解釈面では別々のモデルを活用する事によって、予測能の向上と機械学習を用いた適切な因子同定の双方を達成する事を目指す。また、これらのモデルが実際の保健現場で用いることが出来るかについて、研究協力機関とのディスカッションを通して施設群が実際に活用できるプログラムの作成も検討していく。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究協力施設における健康診断データは適切にクリーニングされ、Random Forestや他の手法(スパースロジスティック)を用いて、既存のリスクモデル研究では作成されなかったモデルの構築を行うとともに、Variable ImportanceやGraphical Lasso等を用いた網羅的な予測因子の探索を行うことが出来た。当初の予定通りの進捗で研究は進んでいる。
|
今後の研究の推進方策 |
DeepLearningでの精度確認を行ったのちに、RandomForest、スパースロジスティック、DeepLearningを用いて作成したモデルが、他の研究協力施設での健康診断データを用いたとしても良好な精度での予測が保たれるかどうかを検討し、精度面と予測因子解釈面では別々のモデルを活用する事によって、予測能の向上と機械学習を用いた適切な因子同定の双方を達成する事を目指す。また、これらのモデルが実際の保健現場で用いることが出来るかについて、研究協力機関とのディスカッションを通して、施設が実際に活用できるプログラム作成を検討していく。
|
次年度使用額が生じた理由 |
健康診断施設から受け取った健康データのクリーニングが複雑である事より、研究者が自ら行ったため、データクリーニングに係る人件費がかからなかった。一方で、新たな機械学習手法を検討・実装する際の調査や書類、解析に必要となる電子機器、専門家との相談等に係る出費が、当初の予定以上に必要となっているため、差額はこれらの費用に充足する予定である。
|