Project/Area Number |
19H04072
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | Waseda University (2023) Yokohama City University (2019-2022) |
Principal Investigator |
汪 金芳 早稲田大学, 国際学術院, 教授 (10270414)
|
Co-Investigator(Kenkyū-buntansha) |
田栗 正隆 東京医科大学, 医学部, 主任教授 (20587589)
橋口 陽子 (小野陽子) 横浜市立大学, データサイエンス学部, 准教授 (60339140)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2023: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2022: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2021: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2020: ¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2019: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
|
Keywords | Bayesian Inference / Causal Inference / Cell Regression / Data-Driven Prior / Real-World-Data / 医療データ / Real World Data / Data Science / Statistics / Machine Learning |
Outline of Research at the Start |
保全生態学と同様に,データサイエンスはギボンズらが主張するモード2科学に分類されるべき新たな学問である。伝統的データ解析から社会における価値創造への飛躍を目指して,新たなデータ駆動型統計推測パラダイムである「Real-World-Data Inference」を構築することが本研究の目的である。特にデータ駆動型客観的ベイズ法であるReal Bayesian Inferenceや実因果モデル(Real Causal Model)の確立を焦点に当て研究を進める。
|
Outline of Annual Research Achievements |
1)糖尿病は全世界的に増加傾向にある一方で、生活習慣の改善により予防が可能な疾病です。血糖値が閾値126を超過すると、臨床的に糖尿病と診断されます。本研究では、ある病院から提供された健診データを用い、XGBoostや深層学習といった表データに優れた機械学習手法と比較し、最適な統計モデルを開発しました。さらに、最適モデルと同等の精度を持つ簡易モデルも作成しました。この簡易モデルは、コストがかかる測定値がほとんど必要なく、アンケートによる指標だけで血糖値を予測することが可能であることを確認しました。この成果は現在、論文として投稿中です。
2)年齢やHbA1cのような本質的に連続的なデータを公開する際には、しばしば範囲ごとに分けてデータの頻度を公開することがあります。このような離散型データに対し、ベイズ的予測モデルを構築し、連続変数を予測するためのCell Regression法を開発しました。開発した手法は健診データに適用し、その有効性を確認しました。また、この手法を実装するためのプログラムも開発しています。この研究は現在、学術論文として投稿準備中です。
3)R言語を使用した統計学と機械学習の基礎について共著でテキストを作成しました。「IT Text データサイエンスの基礎」(オーム社、2022年9月26日発売)というタイトルで出版し、データ科学の基礎をわかりやすく解説しています。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当研究チームは、JMDC社から提供される健診データやレセプトなどのリアルワールドデータを用いて、予測モデルや因果モデルの構築をし、計画に沿って様々な検討を進めてきました。また、新たな理論的方法論であるCell Regressionの開発も着実に進んでいます。
|
Strategy for Future Research Activity |
今後の方針として、遺伝的な要因と環境要因を選択し、精度の高い血糖値予測モデルの開発とその実用化に焦点を当てます。この取り組みを通じて、糖尿病患者や医療専門家にとって有益な情報を提供し、糖尿病の診断や予防への寄与を目指します。さらに、回帰不連続デザイン法や媒介変数法といった手法を活用して、リアルワールドデータに基づいた因果推論の構築を引き続き行います。さらに、Cell Regression理論をパネルデータへと拡張し、客観的ベイズ推論の有効性を検証します。
|