多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発
Project/Area Number |
20K10336
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 58010:Medical management and medical sociology-related
|
Research Institution | Kawasaki University of Medical Welfare |
Principal Investigator |
片岡 浩巳 川崎医療福祉大学, 医療技術学部, 教授 (80398049)
|
Co-Investigator(Kenkyū-buntansha) |
畠山 豊 高知大学, 教育研究部医療学系連携医学部門, 教授 (00376956)
中原 貴子 川崎医療福祉大学, 医療技術学部, 講師 (30462047)
奥原 義保 高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473)
桑原 篤憲 川崎医科大学, 医学部, 教授 (50368627)
竹下 享典 埼玉医科大学, 医学部, 教授 (70444403)
久原 太助 高知大学, 医学部附属病院, 臨床検査技師 (80457407)
三上 史哲 香川大学, 医学部附属病院, 講師 (80550392)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2020: ¥2,860,000 (Direct Cost: ¥2,200,000、Indirect Cost: ¥660,000)
|
Keywords | 疑似ビッグデータ / 多次元データモデル / 分布の正規化 / 秘密分散 / 医療ビッグデータ / プライバシー保護データマイニング / データサイエンティスト / ビッグデータ / 人材育成 |
Outline of Research at the Start |
本研究は、膨大なリアルデータから算出したモデル(多次元特徴地図)から逆変換した疑似ビックデータを作成し、医学領域に特化したデータサイエンティストの育成のための演習用データベース教材を作成することを目的とする。リアルデータから生成したモデルを逆変換することで、作成された疑似ビッグデータはリアルデータに極めて近いデータセットとなり、教育に利用することができるだけでなく、生成した多次元モデルを知識発見研究にも利用することが可能である。本研究の最終目標は、生成したモデルと逆変換データを利用することの有用性とその限界を明らかにすることである。
|
Outline of Annual Research Achievements |
本研究は、日常診療から得られた膨大なデータを元に、多次元モデルを作成し、この多次元モデルから逆変換した疑似ビッグデータを作成し、医学領域のデータサイエンス教育に利用可能な演習用データベースを構築することを目的とする。 本研究の課題として、①リアルデータの情報収集基盤の構築、②多次元モデル生成のためのプログラム開発、③多次元モデルからの疑似データ作成の3つがある。 令和4年度は、昨年度に引き続き③の多次元モデル生成のためのプログラム開発を実施した。また、小規模な試作レベルではあるが、欠損値の無い検査項目を限定した横断研究用のデータセットから生成した多次元モデルデータを作成し、疑似データ生成プログラムの作成を試みた。今回の試作では欠損値の少ない検査項目を対象とし、直近前回値により欠損データを補間し、横断的なデータセットを作成した。次に、分布型を正規分布に変換後、自己組織化マップでクラスタリングを実施した。生成されたクラスタ毎に求めた相関係数に基づいて、相関性の高い項目セットに対しては多変量正規分布に従うランダムなデータを生成し、相関性の低い項目セットは単項目による自己組織化マップ上に展開された平均と分散を用いてランダムデータを生成した。 検証には、疾患毎のROC分析で評価を行った。その結果、リアルデータから算出した結果と疑似データから算出した結果が、ほぼ、同じ結果が得られることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
令和4年度は、多次元モデル生成と疑似データの生成に関するプロトタイプレベルのプログラム開発を実施した。昨年と同様に、この研究の大きな課題となる、属性の正規化方法と欠損値処理方法について、前者の正規化に関しては、変換原点の補正法を導入することで解決できることが判明し、論文発表の準備を進めている。一方、欠損値のあるデータセットに対するクラスタリング処理の確立に関しては、属性間の相関係数を基にした多変量正規分布の生成方法を用いて欠損値を補間する方法でプログラムの試作を行ったが、検証法も含めて十分に考える必要があるため、来年度に持ち越すこととした。 一方、欠損値の無いデータセットに対するクラスタリングモデルの生成は可能であるため、次のステップとなる疑似データの生成のためのプログラム開発を試みた。多変量正規分布生成アルゴリズムと自己組織化マップの中間層の各ニューロンの平均、分散と相関係数を用いて生成した後、分布型の逆変換を行って元のデータを生成する方法を開発した。 本年度は、欠損値のあるデータセットに対するクラスタリング処理の確立を予定していたが、一連のアルゴリズムの結果取得を優先的に行ったため、研究の進捗に対し、やや遅れの報告とした。
|
Strategy for Future Research Activity |
欠損値問題に配慮した新たな自己組織化マップの解析法の確立を目標として、類似距離計算と学習率の計算アルゴリズムの改良を行う予定である。また、病名の疾患群分類により検査の依頼パターンが定まる傾向があることから、疾患群分類毎に複数のモデルを作成する方法も検討する。 繰越となった費用は、研究成果の学会報告ならびに、関連施設での打ち合わせに利用する予定である。
|
Report
(3 results)
Research Products
(5 results)