| Project/Area Number |
20K10336
|
| Research Category |
Grant-in-Aid for Scientific Research (C)
|
| Allocation Type | Multi-year Fund |
| Section | 一般 |
| Review Section |
Basic Section 58010:Medical management and medical sociology-related
|
| Research Institution | Kawasaki University of Medical Welfare |
Principal Investigator |
Kataoka Hiromi 川崎医療福祉大学, 医療技術学部, 教授 (80398049)
|
| Co-Investigator(Kenkyū-buntansha) |
畠山 豊 高知大学, 教育研究部医療学系連携医学部門, 教授 (00376956)
中原 貴子 川崎医療福祉大学, 医療技術学部, 講師 (30462047)
奥原 義保 高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473)
桑原 篤憲 川崎医科大学, 医学部, 教授 (50368627)
竹下 享典 埼玉医科大学, 医学部, 教授 (70444403)
久原 太助 高知大学, 医学部附属病院, 臨床検査技師 (80457407)
三上 史哲 香川大学, 医学部附属病院, 講師 (80550392)
|
| Project Period (FY) |
2020-04-01 – 2025-03-31
|
| Project Status |
Completed (Fiscal Year 2024)
|
| Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2020: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
|
| Keywords | 多次元データモデル / 疑似ビッグデータ / 機械学習 / 臨床検査 / 疑似ビッグデータ生成 / 分布の正規化 / 秘密分散 / 医療ビッグデータ / プライバシー保護データマイニング / データサイエンティスト / ビッグデータ / 人材育成 |
| Outline of Research at the Start |
本研究は、膨大なリアルデータから算出したモデル(多次元特徴地図)から逆変換した疑似ビックデータを作成し、医学領域に特化したデータサイエンティストの育成のための演習用データベース教材を作成することを目的とする。リアルデータから生成したモデルを逆変換することで、作成された疑似ビッグデータはリアルデータに極めて近いデータセットとなり、教育に利用することができるだけでなく、生成した多次元モデルを知識発見研究にも利用することが可能である。本研究の最終目標は、生成したモデルと逆変換データを利用することの有用性とその限界を明らかにすることである。
|
| Outline of Final Research Achievements |
This study aimed to develop a high-fidelity synthetic database for medical data science education by constructing multidimensional statistical models based on real-world electronic medical record (EMR) data and generating synthetic patient data through inverse transformation. Ethical considerations in data collection were addressed using a secret-sharing scheme. For statistical processing, a 2P-BoxCox transformation combined with DBSCAN-based outlier removal was employed to normalize non-Gaussian variables. In the cross-sectional dataset, laboratory values prior to the diagnosis date were clustered using a self-organizing map (SOM), while longitudinal data were modeled based on the temporal patterns of laboratory value changes following drug administration. In both formats, the generated synthetic data exhibited a high degree of statistical similarity to the original clinical data, demonstrating their utility as practical datasets for educational and research purposes.
|
| Academic Significance and Societal Importance of the Research Achievements |
本研究は、実臨床データの統計的特徴を保持した模擬データ生成手法を開発し、横断・縦断の両形式において実データに高い類似性を持つ疑似ビッグデータの構築を実現した。統計手法としては、2P-BoxCox変換とDBSCANによる外れ値処理を組み合わせることで、非正規分布データの正規化と高精度なモデル化を可能とした点に学術的意義がある。社会的には、個人情報保護や倫理的制約により実データの利用が制限される中、実用性の高い模擬データを教育・研究に提供できる意義は大きく、医療データサイエンス教育の普及と質的向上、ならびに次世代の医療人材育成に貢献する。
|