多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発
Project/Area Number |
20K10336
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 58010:Medical management and medical sociology-related
|
Research Institution | Kawasaki University of Medical Welfare |
Principal Investigator |
片岡 浩巳 川崎医療福祉大学, 医療技術学部, 教授 (80398049)
|
Co-Investigator(Kenkyū-buntansha) |
畠山 豊 高知大学, 教育研究部医療学系連携医学部門, 教授 (00376956)
中原 貴子 川崎医療福祉大学, 医療技術学部, 講師 (30462047)
奥原 義保 高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473)
桑原 篤憲 川崎医科大学, 医学部, 教授 (50368627)
竹下 享典 埼玉医科大学, 医学部, 教授 (70444403)
久原 太助 高知大学, 医学部附属病院, 臨床検査技師 (80457407)
三上 史哲 香川大学, 医学部附属病院, 講師 (80550392)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2020: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
|
Keywords | 疑似ビッグデータ生成 / 多次元データモデル / 分布の正規化 / 疑似ビッグデータ / 秘密分散 / 医療ビッグデータ / プライバシー保護データマイニング / データサイエンティスト / ビッグデータ / 人材育成 |
Outline of Research at the Start |
本研究は、膨大なリアルデータから算出したモデル(多次元特徴地図)から逆変換した疑似ビックデータを作成し、医学領域に特化したデータサイエンティストの育成のための演習用データベース教材を作成することを目的とする。リアルデータから生成したモデルを逆変換することで、作成された疑似ビッグデータはリアルデータに極めて近いデータセットとなり、教育に利用することができるだけでなく、生成した多次元モデルを知識発見研究にも利用することが可能である。本研究の最終目標は、生成したモデルと逆変換データを利用することの有用性とその限界を明らかにすることである。
|
Outline of Annual Research Achievements |
本研究は、日常診療から得られた膨大なデータを元に、多次元モデルを作成し、この多次元モデルから逆変換した疑似ビッグデータを作成し、医学領域のデータサイエンス教育に利用可能な演習用データベースを構築することを目的とする。 本研究の課題として、①リアルデータの情報収集基盤の構築、②多次元モデル生成のためのプログラム開発、③多次元モデルからの疑似データ作成の3つがある。これまでの研究期間中に①から③までの課題を解くためのプロトタイプのプログラム開発を行ってきた。この中で解決しなければならない課題として、A.欠損値の課題、B.多様な分布型に対するモデル化の課題、C.多次元モデル構築計算の高速化の課題が挙げられた。 A.欠損値の課題については、直近前回値の採用と、検査項目間相関マトリクスを用いることで解決した。B.多様な分布型に対するモデル化の課題に関しては、変換原点を加味したべき乗変換による正規分布への変換により解決することができ、論文投稿が完了している。C.多次元モデル構築計算の高速化の課題に関しては、多次元モデル構築の中心的な処理となる自己組織化マップの高速化が課題となった。大規模なデータセットを用いたクラスタリングを行うには、大規模な競合層が必要であり、演算量も爆発的に増えるため、大規模データのモデル構築に耐えうるアルゴリズムを実装したプログラム開発と演算の高速化が必要であった。次年度は、大規模なデータセットを対象としたモデル構築を行い、再検証を実施し、論文としてまとめる予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
令和5年度は、「多様な分布型に対するモデル化の課題」の中で、データの正規分布変換のための成果を論文にまとめ、「Critical appraisal of two Box-Cox formulae for their utility in determining reference intervals by realistic simulation and extensive real-world data analyses」として論文発表を行った。一般的に実施されている臨床検査項目では、ほぼすべての正規分布変換が可能であることが証明され、変換スクリプトの公開もサプリメントとして実施している。一方で、ある特定の遺伝子発現量の領域では、分布系が指数減衰的な形式となるため、変換原点付きのべき乗変換方式のみでは対応が困難な場合があることがわかった。遺伝子発現量等の特殊な項目に関しては、別のアルゴリズムを用いて正規化を行う方法を考える必要がある。 「欠損値の課題」に対しては、検査項目間の相関マトリクスデータベースを単項目頃のペアで計算した結果を準備した。さらに、次年度は、疾患別の相関マトリクスに関しても準備する予定である。 「疑似データの生成のためのプログラム開発」に関しては、プ多変量正規分布生成アルゴリズムと自己組織化マップの中間層の各ニューロンの平均、分散と相関係数を用いて生成した後、分布型の逆変換を行って元のデータを生成する方法のプロトタイプが開発できたため、評価とアルゴリズムの改良を行う予定である。 研究の進捗に関して、現在、小規模データを対象とした評価にとどまっているため、大規模データに耐え、かつ、高精度な疑似データを作成可能なプログラムの改良が必要であるため、1年延長し、やや遅れていると報告した。
|
Strategy for Future Research Activity |
一連のプログラム開発に必要なアルゴリズムの確認と疑似データ生成のための再現精度の検証が完了したため、作成したプロトタイププログラムを改良し、大規模データに適用可能なプログラムを作成する。また、さらなる再現精度の向上を目指して、疾患群分類毎に複数のモデルの作成を目指す。 繰越となった費用は、研究成果の学会報告ならびに、関連施設での打ち合わせに利用する予定である。
|
Report
(4 results)
Research Products
(6 results)