多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発

研究課題

研究課題/領域番号	20K10336
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分58010:医療管理学および医療系社会学関連
研究機関	川崎医療福祉大学
研究代表者	片岡浩巳川崎医療福祉大学, 医療技術学部, 教授 (80398049)
研究分担者	畠山豊高知大学, 教育研究部医療学系連携医学部門, 教授 (00376956) 中原貴子川崎医療福祉大学, 医療技術学部, 講師 (30462047) 奥原義保高知大学, 教育研究部医療学系連携医学部門, 教授 (40233473) 桑原篤憲川崎医科大学, 医学部, 教授 (50368627) 竹下享典埼玉医科大学, 医学部, 教授 (70444403) 久原太助高知大学, 医学部附属病院, 臨床検査技師 (80457407) 三上史哲香川大学, 医学部附属病院, 講師 (80550392)
研究期間 (年度)	2020-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2020年度: 2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
キーワード	疑似ビッグデータ生成 / 多次元データモデル / 分布の正規化 / 疑似ビッグデータ / 秘密分散 / 医療ビッグデータ / プライバシー保護データマイニング / データサイエンティスト / ビッグデータ / 人材育成
研究開始時の研究の概要	本研究は、膨大なリアルデータから算出したモデル（多次元特徴地図）から逆変換した疑似ビックデータを作成し、医学領域に特化したデータサイエンティストの育成のための演習用データベース教材を作成することを目的とする。リアルデータから生成したモデルを逆変換することで、作成された疑似ビッグデータはリアルデータに極めて近いデータセットとなり、教育に利用することができるだけでなく、生成した多次元モデルを知識発見研究にも利用することが可能である。本研究の最終目標は、生成したモデルと逆変換データを利用することの有用性とその限界を明らかにすることである。
研究実績の概要	本研究は、日常診療から得られた膨大なデータを元に、多次元モデルを作成し、この多次元モデルから逆変換した疑似ビッグデータを作成し、医学領域のデータサイエンス教育に利用可能な演習用データベースを構築することを目的とする。本研究の課題として、①リアルデータの情報収集基盤の構築、②多次元モデル生成のためのプログラム開発、③多次元モデルからの疑似データ作成の3つがある。これまでの研究期間中に①から③までの課題を解くためのプロトタイプのプログラム開発を行ってきた。この中で解決しなければならない課題として、A.欠損値の課題、B.多様な分布型に対するモデル化の課題、C.多次元モデル構築計算の高速化の課題が挙げられた。 A.欠損値の課題については、直近前回値の採用と、検査項目間相関マトリクスを用いることで解決した。B.多様な分布型に対するモデル化の課題に関しては、変換原点を加味したべき乗変換による正規分布への変換により解決することができ、論文投稿が完了している。C.多次元モデル構築計算の高速化の課題に関しては、多次元モデル構築の中心的な処理となる自己組織化マップの高速化が課題となった。大規模なデータセットを用いたクラスタリングを行うには、大規模な競合層が必要であり、演算量も爆発的に増えるため、大規模データのモデル構築に耐えうるアルゴリズムを実装したプログラム開発と演算の高速化が必要であった。次年度は、大規模なデータセットを対象としたモデル構築を行い、再検証を実施し、論文としてまとめる予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由令和５年度は、「多様な分布型に対するモデル化の課題」の中で、データの正規分布変換のための成果を論文にまとめ、「Critical appraisal of two Box-Cox formulae for their utility in determining reference intervals by realistic simulation and extensive real-world data analyses」として論文発表を行った。一般的に実施されている臨床検査項目では、ほぼすべての正規分布変換が可能であることが証明され、変換スクリプトの公開もサプリメントとして実施している。一方で、ある特定の遺伝子発現量の領域では、分布系が指数減衰的な形式となるため、変換原点付きのべき乗変換方式のみでは対応が困難な場合があることがわかった。遺伝子発現量等の特殊な項目に関しては、別のアルゴリズムを用いて正規化を行う方法を考える必要がある。「欠損値の課題」に対しては、検査項目間の相関マトリクスデータベースを単項目頃のペアで計算した結果を準備した。さらに、次年度は、疾患別の相関マトリクスに関しても準備する予定である。「疑似データの生成のためのプログラム開発」に関しては、プ多変量正規分布生成アルゴリズムと自己組織化マップの中間層の各ニューロンの平均、分散と相関係数を用いて生成した後、分布型の逆変換を行って元のデータを生成する方法のプロトタイプが開発できたため、評価とアルゴリズムの改良を行う予定である。研究の進捗に関して、現在、小規模データを対象とした評価にとどまっているため、大規模データに耐え、かつ、高精度な疑似データを作成可能なプログラムの改良が必要であるため、1年延長し、やや遅れていると報告した。
今後の研究の推進方策	一連のプログラム開発に必要なアルゴリズムの確認と疑似データ生成のための再現精度の検証が完了したため、作成したプロトタイププログラムを改良し、大規模データに適用可能なプログラムを作成する。また、さらなる再現精度の向上を目指して、疾患群分類毎に複数のモデルの作成を目指す。繰越となった費用は、研究成果の学会報告ならびに、関連施設での打ち合わせに利用する予定である。

報告書

(4件)

研究成果
(6件)

すべて 2023 2021 2020

すべて雑誌論文 (2件) (うち国際共著 1件、査読あり 1件、オープンアクセス 1件) 学会発表 (4件) (うち招待講演 1件)

[雑誌論文] Critical appraisal of two Box-Cox formulae for their utility in determining reference intervals by realistic simulation and extensive real-world data analyses2023
- 著者名/発表者名
  Ichihara Kiyoshi、Yamashita Teppei、Kataoka Hiromi、Sato Shoichi
- 雑誌名
  
  Computer Methods and Programs in Biomedicine
  
  巻: 242 ページ: 107820-107820
- DOI
  10.1016/j.cmpb.2023.107820
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス / 国際共著
[雑誌論文] 医療ビッグデータの活用　医療ビッグデータ解析法2020
- 著者名/発表者名
  片岡　浩巳
- 雑誌名
  
  臨床検査
  
  巻: 64(5) ページ: 592-599
- 関連する報告書
  2020 実施状況報告書
[学会発表] 臨床検査データを用いた診断支援の試みとその課題2021
- 著者名/発表者名
  片岡浩巳
- 学会等名
  令和2年度大学病院情報マネジメント部門連絡会議
- 関連する報告書
  2020 実施状況報告書
- 招待講演
[学会発表] 臨床検査の数値情報を対象とした機械学習適用の課題2020
- 著者名/発表者名
  片岡浩巳
- 学会等名
  第67回日本臨床検査医学会学術集会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 機械学習の活用による検査サービス向上を目指したアプローチ2020
- 著者名/発表者名
  片岡浩巳
- 学会等名
  第67回日本臨床検査医学会学術集会
- 関連する報告書
  2020 実施状況報告書
[学会発表] 自動血球計数装置がもつビッグデータからの新知見発掘2020
- 著者名/発表者名
  片岡浩巳
- 学会等名
  第５３回日本医療検査科学会
- 関連する報告書
  2020 実施状況報告書

多次元臨床検査データモデルの構築と疑似ビッグデータ作成システムの開発

研究代表者

片岡 浩巳 川崎医療福祉大学, 医療技術学部, 教授 (80398049)

4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] Critical appraisal of two Box-Cox formulae for their utility in determining reference intervals by realistic simulation and extensive real-world data analyses2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 医療ビッグデータの活用 医療ビッグデータ解析法2020

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 臨床検査データを用いた診断支援の試みとその課題2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 臨床検査の数値情報を対象とした機械学習適用の課題2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 機械学習の活用による検査サービス向上を目指したアプローチ2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自動血球計数装置がもつビッグデータからの新知見発掘2020

著者名/発表者名

学会等名

関連する報告書

片岡浩巳川崎医療福祉大学, 医療技術学部, 教授 (80398049)

[雑誌論文] 医療ビッグデータの活用　医療ビッグデータ解析法2020